ラベル API の投稿を表示しています。 すべての投稿を表示
ラベル API の投稿を表示しています。 すべての投稿を表示

2008年7月28日月曜日

Pathtraq API 試し打ち

の方法は「Do You PHP はてな」ブログから。
これでばっちりデータがとれているのが確認できました。

前述のリンク先の見本を実行するには、PHPでPathtraqのPEARモジュールを作られていたので、それをCodeReposからDLしてサーバのPEARディレクトリに配置しておきます。

取得データ内でAPIの適用されている箇所は、黄色のラインマーカーの箇所。






















ソースではキーワードを渡してあげるだけで良く、Web上アクセス履歴や遷移先の統計をするのに便利ですね。


その他にもid:amachangさんが、至れり尽くせりのAPI使用法を上げてくれているので、JavaScript&JSONでも試してみたいです。
なお、リクエストパラメータのカテゴリの定義などは公式ドキュメント参照のこと。


そういえば、検索とユーザの閲覧履歴についてはMicroSoft も BrowserRank(下図転載) というアプローチを検討しているとF.Ko-jiさんのブログにあったのを思い出しました。
(さらにはMicroSoftのPowerSet買収の件も気になるところです‥)













2008年はセマンティックWeb元年とのことですが、その背景には検索技術向上の競争が繰り広げられているのだと感じました。。

2008年7月24日木曜日

TermDrips API の試し打ち

Yahoo!Developer APIにも形態素解析用のAPIがあるのですが、たつをさんブログのTF-IDF利用など、検索技術関連のネタを漁っています。

英語ならアルファベット26字と半角数字記号の世界ですが、いざ日本語となるとカタカナひらがな漢字+英語圏のそれと合わせたテキストデータの取り扱いが必要ですよね。。

解析技術の難易度が言語に依存するところや、文字エンコードなどは調べるのも面白いのですが、今回は課題に使えるようなAPIを探索。

「キーワード抽出&重みづけ」を実行可能なAPIのうち、見つかった "KOSHIAN" は現在利用不可とことだったので、 "TermDrips"APIを使ってみようと思います。

キーワードを定義するにはベースの辞書が必要ですが、ここではWkipediaを。
また、カテゴリ情報の定義も同じくWikipedia、キーワードの重みづけにはMeCabを利用しているとのこと。
(重みスコア = コスト×キーワード出現回数、コストはMeCabの仕組みから)

なお、XML経由での使用法は「熱血multi web」ブログ記事を参照。


POSTして返ってくるデータ例は以下のような感じ。
































より記事内容の即しているキーワードの重みづけがされていることが見て取れます。
直感的にWebテキストデータを把握する上で便利ですね。


さらに検索技術を深堀りしたいと思っていたので、参考資料を後述。。
  • たつをさんChangeLogのIIR輪講記事(introduction to infromation retrieval)
  • &なおやさん輪講まとめppt格納庫

  • オライリー出版「集合知プログラミング」
     ベイズ理論とか決定木とかニューラルネットワークなどなど話題豊富な1冊です。

Blogger Syntax Highliter