ラベル web service の投稿を表示しています。 すべての投稿を表示
ラベル web service の投稿を表示しています。 すべての投稿を表示

2008年7月28日月曜日

Pathtraq API 試し打ち

の方法は「Do You PHP はてな」ブログから。
これでばっちりデータがとれているのが確認できました。

前述のリンク先の見本を実行するには、PHPでPathtraqのPEARモジュールを作られていたので、それをCodeReposからDLしてサーバのPEARディレクトリに配置しておきます。

取得データ内でAPIの適用されている箇所は、黄色のラインマーカーの箇所。






















ソースではキーワードを渡してあげるだけで良く、Web上アクセス履歴や遷移先の統計をするのに便利ですね。


その他にもid:amachangさんが、至れり尽くせりのAPI使用法を上げてくれているので、JavaScript&JSONでも試してみたいです。
なお、リクエストパラメータのカテゴリの定義などは公式ドキュメント参照のこと。


そういえば、検索とユーザの閲覧履歴についてはMicroSoft も BrowserRank(下図転載) というアプローチを検討しているとF.Ko-jiさんのブログにあったのを思い出しました。
(さらにはMicroSoftのPowerSet買収の件も気になるところです‥)













2008年はセマンティックWeb元年とのことですが、その背景には検索技術向上の競争が繰り広げられているのだと感じました。。

2008年7月24日木曜日

TermDrips API の試し打ち

Yahoo!Developer APIにも形態素解析用のAPIがあるのですが、たつをさんブログのTF-IDF利用など、検索技術関連のネタを漁っています。

英語ならアルファベット26字と半角数字記号の世界ですが、いざ日本語となるとカタカナひらがな漢字+英語圏のそれと合わせたテキストデータの取り扱いが必要ですよね。。

解析技術の難易度が言語に依存するところや、文字エンコードなどは調べるのも面白いのですが、今回は課題に使えるようなAPIを探索。

「キーワード抽出&重みづけ」を実行可能なAPIのうち、見つかった "KOSHIAN" は現在利用不可とことだったので、 "TermDrips"APIを使ってみようと思います。

キーワードを定義するにはベースの辞書が必要ですが、ここではWkipediaを。
また、カテゴリ情報の定義も同じくWikipedia、キーワードの重みづけにはMeCabを利用しているとのこと。
(重みスコア = コスト×キーワード出現回数、コストはMeCabの仕組みから)

なお、XML経由での使用法は「熱血multi web」ブログ記事を参照。


POSTして返ってくるデータ例は以下のような感じ。
































より記事内容の即しているキーワードの重みづけがされていることが見て取れます。
直感的にWebテキストデータを把握する上で便利ですね。


さらに検索技術を深堀りしたいと思っていたので、参考資料を後述。。
  • たつをさんChangeLogのIIR輪講記事(introduction to infromation retrieval)
  • &なおやさん輪講まとめppt格納庫

  • オライリー出版「集合知プログラミング」
     ベイズ理論とか決定木とかニューラルネットワークなどなど話題豊富な1冊です。

2008年7月17日木曜日

今日の人気記事@はてなからの備忘録

秀逸な記事(ともにWebサービス紹介)が並んでたので備忘録。


1つ目は be funky
画像ジェネレータのサービス

生成されるスタイルは3種類「水彩画風」「マンガ風」「動画切り出し画像」です。
コミカルな画像のジェネレータは数あれど、このWebサービスは提示の仕方が抜群です。

加工するのもスライドバーで調整する、クリップを乗せる・貼る。
GUIで自由自在。

E-mailで誰かに送ったりデスクトップ、内部のSNSや自分用ギャラリーにも保存OK。
使いやすさが極まったサービスです。


(Before)











こんな感じのものを生成。

(After)












2つめは、id:gamellaさんブログ紹介記事 "Tombloo"
Firefoxの拡張機能です。

Tumblr.という画像、映像、音声ファイルなどを簡単にアップできる機能に特化したWebサービスがあるのですが、これの補足用拡張機能として作られたとのことです。(FirefoxのエクステンションはJavaScriptで作れるそうで‥)

ただ、この"Tombloo"の優れた点は、自分が利用しているWebサービスに投稿、登録、ポストできる対象の幅の広さです。

ざっと見ただけでも
  • Tumblr
  • FriendFeed
  • FFFOUND
  • Flicker
  • WeHeartIt
  • 4u
  • (local フォルダにも)
  • Twitter
  • del.icio.us
  • Firefox bookmark
  • GoogleBookmark
  • Yahoo!Bookmark
  • HataneBookmark (HatenaStarも)
  • Wassr
とツボをしっかり押さえています。
個別にアップしなくても済むことで横断的なサービス利用の手間が省けるのです。


ソーシャルブックマーク(SBM)研究会から感じたことで、SBMはコミュニティの性質に依存して、その中で成長する過程があるのではないか。
SBMの用途ごとの使い分けが求められるのではないかという思いがあります。

このTombloo がSBMを横につなげるパワフルなツールは是非使ってみたいです。

2008年4月15日火曜日

blog 右パネル欄

2008年4月12日現在では "iKow"  と"MARU-TEN-TEN"がお気に入り。

前者はオンラインEnglish ラーニングSNS、、後者は‥クリックしてみるとわかります。。
"iKnow"ははてブでも注目のサイトなのだけど、ケータイからもアクセスできる優れもの。

参加までの経緯は amachan さんのIT戦記読んでてアイコンクリックしたところからで、つい先週登録したばかり。
OpenIDですんなり登録したものの、ケータイからのログイン用に別途パスワード必要なのは盲点でした。


豆知識には、学習コースをガンガン登録して(ビジネス英語、TOEFL、GREの○○編)、ケータイからアクセス。
マイコース→コース一覧→各コース"学習項目" で、電子単語帳みたいに使える。。

各コースごとに200語くらい収録、100語目あたりのページをブックマークしておいて圏内でキャッシュに納めておけば、地下鉄乗車中でもチェックOK。。


あと、iKnowを提供している(c)Carego社の募集人材スキルが興味深いです。

(参考までに①はプログラム開発、②はサーバ管理業務)
①* Mac/Unix/Linux の経験。AJAX 、XHTML 、CSS 、およびXML、Rubyの知識
6ヶ月以上のRailsの経験(できれば1年以上)

下記の知識、経験
* ActiveRecord: associations, validation, callbacks.
* ActionController: routing, filters and verification, caching.
* ActionView: XML Builder templates, layouts and components, partials.
* テスティングとテスト駆動開発: unit and functional testing, fixtures, mocks.
* 一般的なSQLとMySQLに特化した知識

②*24台のサーバと7つの製品の構築と管理経験
*Rubyの深い知識を持っている方
* ロードバランサー
* LVS, PF
* Can give estimates on required h/w specs to support 10k max connections
* Understand the pros and cons of different scheduling algorithms
  * 自動インストールとシステムの構築

Rubyでのアプリ開発が推進されていると想定され、知らない間にRuby案件が増えているのかな、、と。。

2008年3月17日月曜日

Yahoo! Pipesで○○○

Yahoo!Pipesを使って、研究を進行中。。

日本語での取り扱い方URLはここ

まとめはここ

Pipes生成のとき、どうやって検索先のURLを指定するか、が”鍵”になるのでAsciiコード一覧も下記にてどうぞ。
http://homepage2.nifty.com/aggressive_ex/ascii.html



【以下進捗】

・入力値の文字化けとか問題かも。
→「URLの末尾の encode=UTF-8 とかが大事」と参考記事にあったり、一度"はてなRSS"経由で or "FeedBurner"で焼けば文字化け解消!とかあったのですが、、残念ながら解消されず。


ちなみに、今後修正する可能性もありますが、下記が該当RSSと文字化け状況。

Pipes の中身は、Google と Yahoo!のサーチエンジンの検索結果をRSSでまとめて取得しようとするものです。
いまのところ課題が山積みで実用に耐えない状況ですが、、。

http://feeds.feedburner.jp/search-jpn
















多分、Search&RSS なるサイトからRSS引っ張ってきているせいだと思う。

だので、Googleサーチ・Yahoo!サーチの両方別々に引っ張ってこようかと検討中。

Blogger Syntax Highliter