英語ならアルファベット26字と半角数字記号の世界ですが、いざ日本語となるとカタカナひらがな漢字+英語圏のそれと合わせたテキストデータの取り扱いが必要ですよね。。
解析技術の難易度が言語に依存するところや、文字エンコードなどは調べるのも面白いのですが、今回は課題に使えるようなAPIを探索。
「キーワード抽出&重みづけ」を実行可能なAPIのうち、見つかった "KOSHIAN" は現在利用不可とことだったので、 "TermDrips"APIを使ってみようと思います。
キーワードを定義するにはベースの辞書が必要ですが、ここではWkipediaを。
また、カテゴリ情報の定義も同じくWikipedia、キーワードの重みづけにはMeCabを利用しているとのこと。
(重みスコア = コスト×キーワード出現回数、コストはMeCabの仕組みから)
なお、XML経由での使用法は「熱血multi web」ブログ記事を参照。
POSTして返ってくるデータ例は以下のような感じ。


より記事内容の即しているキーワードの重みづけがされていることが見て取れます。
直感的にWebテキストデータを把握する上で便利ですね。
さらに検索技術を深堀りしたいと思っていたので、参考資料を後述。。
0 件のコメント:
コメントを投稿