2008年7月24日木曜日

TermDrips API の試し打ち

Yahoo!Developer APIにも形態素解析用のAPIがあるのですが、たつをさんブログのTF-IDF利用など、検索技術関連のネタを漁っています。

英語ならアルファベット26字と半角数字記号の世界ですが、いざ日本語となるとカタカナひらがな漢字+英語圏のそれと合わせたテキストデータの取り扱いが必要ですよね。。

解析技術の難易度が言語に依存するところや、文字エンコードなどは調べるのも面白いのですが、今回は課題に使えるようなAPIを探索。

「キーワード抽出&重みづけ」を実行可能なAPIのうち、見つかった "KOSHIAN" は現在利用不可とことだったので、 "TermDrips"APIを使ってみようと思います。

キーワードを定義するにはベースの辞書が必要ですが、ここではWkipediaを。
また、カテゴリ情報の定義も同じくWikipedia、キーワードの重みづけにはMeCabを利用しているとのこと。
(重みスコア = コスト×キーワード出現回数、コストはMeCabの仕組みから)

なお、XML経由での使用法は「熱血multi web」ブログ記事を参照。


POSTして返ってくるデータ例は以下のような感じ。
































より記事内容の即しているキーワードの重みづけがされていることが見て取れます。
直感的にWebテキストデータを把握する上で便利ですね。


さらに検索技術を深堀りしたいと思っていたので、参考資料を後述。。
  • たつをさんChangeLogのIIR輪講記事(introduction to infromation retrieval)
  • &なおやさん輪講まとめppt格納庫

  • オライリー出版「集合知プログラミング」
     ベイズ理論とか決定木とかニューラルネットワークなどなど話題豊富な1冊です。

0 件のコメント:

Blogger Syntax Highliter