の方法は「Do You PHP はてな」ブログから。
これでばっちりデータがとれているのが確認できました。
前述のリンク先の見本を実行するには、PHPでPathtraqのPEARモジュールを作られていたので、それをCodeReposからDLしてサーバのPEARディレクトリに配置しておきます。
取得データ内でAPIの適用されている箇所は、黄色のラインマーカーの箇所。
ソースではキーワードを渡してあげるだけで良く、Web上アクセス履歴や遷移先の統計をするのに便利ですね。
その他にもid:amachangさんが、至れり尽くせりのAPI使用法を上げてくれているので、JavaScript&JSONでも試してみたいです。
なお、リクエストパラメータのカテゴリの定義などは公式ドキュメント参照のこと。
そういえば、検索とユーザの閲覧履歴についてはMicroSoft も BrowserRank(下図転載) というアプローチを検討しているとF.Ko-jiさんのブログにあったのを思い出しました。
(さらにはMicroSoftのPowerSet買収の件も気になるところです‥)
2008年はセマンティックWeb元年とのことですが、その背景には検索技術向上の競争が繰り広げられているのだと感じました。。
2008年7月28日月曜日
2008年7月25日金曜日
MicroSoftの3D Software "trueSpace"
が無償公開されたとのことです ⇒ Webマーケティングブログ記事。
Google SketchUpでも驚いていたのですが、MicroSoftも気風が良いですね(本来$595=6万円相当で販売されていたそうで‥)。
XBoxで実装されている技術の一端を味わうことができればラッキーです。
3Dモデリングソフトの価格破壊を通り越して、無償ツールの台頭が来るとは‥。。
とにかく市場シェアを制したいという意思が強烈に現れてますね。
Google SketchUpでも驚いていたのですが、MicroSoftも気風が良いですね(本来$595=6万円相当で販売されていたそうで‥)。
XBoxで実装されている技術の一端を味わうことができればラッキーです。
3Dモデリングソフトの価格破壊を通り越して、無償ツールの台頭が来るとは‥。。
とにかく市場シェアを制したいという意思が強烈に現れてますね。
2008年7月24日木曜日
TermDrips API の試し打ち
Yahoo!Developer APIにも形態素解析用のAPIがあるのですが、たつをさんブログのTF-IDF利用など、検索技術関連のネタを漁っています。
英語ならアルファベット26字と半角数字記号の世界ですが、いざ日本語となるとカタカナひらがな漢字+英語圏のそれと合わせたテキストデータの取り扱いが必要ですよね。。
解析技術の難易度が言語に依存するところや、文字エンコードなどは調べるのも面白いのですが、今回は課題に使えるようなAPIを探索。
「キーワード抽出&重みづけ」を実行可能なAPIのうち、見つかった "KOSHIAN" は現在利用不可とことだったので、 "TermDrips"APIを使ってみようと思います。
キーワードを定義するにはベースの辞書が必要ですが、ここではWkipediaを。
また、カテゴリ情報の定義も同じくWikipedia、キーワードの重みづけにはMeCabを利用しているとのこと。
(重みスコア = コスト×キーワード出現回数、コストはMeCabの仕組みから)
なお、XML経由での使用法は「熱血multi web」ブログ記事を参照。
POSTして返ってくるデータ例は以下のような感じ。
より記事内容の即しているキーワードの重みづけがされていることが見て取れます。
直感的にWebテキストデータを把握する上で便利ですね。
さらに検索技術を深堀りしたいと思っていたので、参考資料を後述。。
英語ならアルファベット26字と半角数字記号の世界ですが、いざ日本語となるとカタカナひらがな漢字+英語圏のそれと合わせたテキストデータの取り扱いが必要ですよね。。
解析技術の難易度が言語に依存するところや、文字エンコードなどは調べるのも面白いのですが、今回は課題に使えるようなAPIを探索。
「キーワード抽出&重みづけ」を実行可能なAPIのうち、見つかった "KOSHIAN" は現在利用不可とことだったので、 "TermDrips"APIを使ってみようと思います。
キーワードを定義するにはベースの辞書が必要ですが、ここではWkipediaを。
また、カテゴリ情報の定義も同じくWikipedia、キーワードの重みづけにはMeCabを利用しているとのこと。
(重みスコア = コスト×キーワード出現回数、コストはMeCabの仕組みから)
なお、XML経由での使用法は「熱血multi web」ブログ記事を参照。
POSTして返ってくるデータ例は以下のような感じ。
より記事内容の即しているキーワードの重みづけがされていることが見て取れます。
直感的にWebテキストデータを把握する上で便利ですね。
さらに検索技術を深堀りしたいと思っていたので、参考資料を後述。。
2008年7月18日金曜日
Firefoxアドオン DB管理ツール
Firefox add-on の便利ツール ”SQLite Manager”
PHPにはローカルのGUIで動かせるphpMyAdmin がありますが、SQLite用でこれは使えそう。
GoogleGearsのデータもここで使えるように設定しとこうかと。
シンプルなレイアウトでメニューも直感的に使えるような具合になっています。
TechCrunch記事にもあったように、オフライン化としてのツール以上に、GoogleGears(Gearsに改名されたそうですが)はWebアプリの処理速度向上に有用とのこと。
確かにシンクライアント環境が整ってきてはいても待機時間が大きいのはストレスですし。
Gearsと相性の良さそうなSQLiteツールは歓迎です。
PHPにはローカルのGUIで動かせるphpMyAdmin がありますが、SQLite用でこれは使えそう。
GoogleGearsのデータもここで使えるように設定しとこうかと。
シンプルなレイアウトでメニューも直感的に使えるような具合になっています。
TechCrunch記事にもあったように、オフライン化としてのツール以上に、GoogleGears(Gearsに改名されたそうですが)はWebアプリの処理速度向上に有用とのこと。
確かにシンクライアント環境が整ってきてはいても待機時間が大きいのはストレスですし。
Gearsと相性の良さそうなSQLiteツールは歓迎です。
2008年7月17日木曜日
今日の人気記事@はてなからの備忘録
秀逸な記事(ともにWebサービス紹介)が並んでたので備忘録。
1つ目は be funky
画像ジェネレータのサービス
生成されるスタイルは3種類「水彩画風」「マンガ風」「動画切り出し画像」です。
コミカルな画像のジェネレータは数あれど、このWebサービスは提示の仕方が抜群です。
加工するのもスライドバーで調整する、クリップを乗せる・貼る。
GUIで自由自在。
E-mailで誰かに送ったりデスクトップ、内部のSNSや自分用ギャラリーにも保存OK。
使いやすさが極まったサービスです。
(Before)
こんな感じのものを生成。
(After)
2つめは、id:gamellaさんブログ紹介記事 "Tombloo"
Firefoxの拡張機能です。
Tumblr.という画像、映像、音声ファイルなどを簡単にアップできる機能に特化したWebサービスがあるのですが、これの補足用拡張機能として作られたとのことです。(FirefoxのエクステンションはJavaScriptで作れるそうで‥)
ただ、この"Tombloo"の優れた点は、自分が利用しているWebサービスに投稿、登録、ポストできる対象の幅の広さです。
ざっと見ただけでも
個別にアップしなくても済むことで横断的なサービス利用の手間が省けるのです。
ソーシャルブックマーク(SBM)研究会から感じたことで、SBMはコミュニティの性質に依存して、その中で成長する過程があるのではないか。
SBMの用途ごとの使い分けが求められるのではないかという思いがあります。
このTombloo がSBMを横につなげるパワフルなツールは是非使ってみたいです。
1つ目は be funky
画像ジェネレータのサービス
生成されるスタイルは3種類「水彩画風」「マンガ風」「動画切り出し画像」です。
コミカルな画像のジェネレータは数あれど、このWebサービスは提示の仕方が抜群です。
加工するのもスライドバーで調整する、クリップを乗せる・貼る。
GUIで自由自在。
E-mailで誰かに送ったりデスクトップ、内部のSNSや自分用ギャラリーにも保存OK。
使いやすさが極まったサービスです。
(Before)
こんな感じのものを生成。
(After)
2つめは、id:gamellaさんブログ紹介記事 "Tombloo"
Firefoxの拡張機能です。
Tumblr.という画像、映像、音声ファイルなどを簡単にアップできる機能に特化したWebサービスがあるのですが、これの補足用拡張機能として作られたとのことです。(FirefoxのエクステンションはJavaScriptで作れるそうで‥)
ただ、この"Tombloo"の優れた点は、自分が利用しているWebサービスに投稿、登録、ポストできる対象の幅の広さです。
ざっと見ただけでも
- Tumblr
- FriendFeed
- FFFOUND
- Flicker
- WeHeartIt
- 4u
- (local フォルダにも)
- del.icio.us
- Firefox bookmark
- GoogleBookmark
- Yahoo!Bookmark
- HataneBookmark (HatenaStarも)
- Wassr
個別にアップしなくても済むことで横断的なサービス利用の手間が省けるのです。
ソーシャルブックマーク(SBM)研究会から感じたことで、SBMはコミュニティの性質に依存して、その中で成長する過程があるのではないか。
SBMの用途ごとの使い分けが求められるのではないかという思いがあります。
このTombloo がSBMを横につなげるパワフルなツールは是非使ってみたいです。
2008年7月13日日曜日
変わっていくもののこととか
これ見たら iphoneへの購買欲が高まってしまった‥。
とりわけこのガジェットが、というわけではなく、未購買者がこのアプリのためにiphoneを買う、という現象も起きうるのですね。
どうやらiphone用アプリは世界中の開発者の開発欲と相まって広がっていくのかなと。
作り方さえ公開されていれば、でユーザが開発者側に回ることも十分ありえますし。
下記は3月のGizmode記事から。
リンク先の動画もぜひ。
そういえば、一昔前読んだ松永真理さん著書「i-mode事件」で記憶に残ったメッセージ、
そしてポケベルはケータイに。
i-modeはケータイを別の何かに、コンテンツを提供する仕組みに変化させます。
ハードウェアの視点では、電話機の代替物として生まれたはずのケータイは、既存のガジェットを飲み込んでどんどん膨らんでいきました。いまやケータイには、テレビもラジオも積まれる時代。。
江島さんブログではiphoneが通話機能をアプリ群の一機能に定義している、と考察されています。
それはパラダイムシフトに他ならず、PCの出現時のその感触に一致するものである、とも。
生活の時間の区切りを意識せずに(PCのようにON/OFFの切り替えも要さず)動作するガジェットの強み。
共有知、集合知。加速する時代感覚、狭まる時間間隔。
iphoneの提示する未来像に興味ありです。
とりわけこのガジェットが、というわけではなく、未購買者がこのアプリのためにiphoneを買う、という現象も起きうるのですね。
どうやらiphone用アプリは世界中の開発者の開発欲と相まって広がっていくのかなと。
作り方さえ公開されていれば、でユーザが開発者側に回ることも十分ありえますし。
下記は3月のGizmode記事から。
リンク先の動画もぜひ。
そういえば、一昔前読んだ松永真理さん著書「i-mode事件」で記憶に残ったメッセージ、
音楽が持ち運べるようになって(カセットウォークマン)、ゲームが持ち運べるようになって(ゲームボーイ)、じきに情報そのものを持ち運べる時代になるよ。
そしてポケベルはケータイに。
i-modeはケータイを別の何かに、コンテンツを提供する仕組みに変化させます。
ハードウェアの視点では、電話機の代替物として生まれたはずのケータイは、既存のガジェットを飲み込んでどんどん膨らんでいきました。いまやケータイには、テレビもラジオも積まれる時代。。
江島さんブログではiphoneが通話機能をアプリ群の一機能に定義している、と考察されています。
それはパラダイムシフトに他ならず、PCの出現時のその感触に一致するものである、とも。
生活の時間の区切りを意識せずに(PCのようにON/OFFの切り替えも要さず)動作するガジェットの強み。
共有知、集合知。加速する時代感覚、狭まる時間間隔。
iphoneの提示する未来像に興味ありです。
2008年7月12日土曜日
第1回 SBM研究会参加録
Mixi経由で1か月くらい前に知り、参加してきました@東工大。
講演内容については、早速まとめてくださった方がいました。→参照
配布プレゼン資料は→参照
使い方や、共有知を探る意味でもSBMは面白い素材と思います。
そういえばAmazonでも「集合知プログラミング」なる書籍が2008/07.24に発売されるようです。
(洋書版買っておいたのですが、専門用語の多さに辟易してしまったので再購入するかも‥)
検索関連でタイムリーにたつをさんブログのTF-IDF記事が挙げられていてびっくり。
記事が2005年なのですが、実用性ありそうと探っていたのが先週で、、、既にこの理論を適用しているWebサービスがあったのですね。神林さん++
スラッシュドット横田さんの「2008年度アルファブロガーは"やるお"」というコメントもハッとした気づきがありました。
日本国内インターネット界隈で2chの与えるインパクト相当のものと思われるんですが、"やるお"の意味するところは
集合知と啓発の観点でアルファブロガーやるおに一票。
ちなみにSBMの使い方なのですが、自分の場合は、外出先からケータイで気になる記事をはてなブックマークにpostしています。
ここでは、はてなRSSで拾ったものを対象に、技術系・雑多ネタなんでもどんどんpost。
大体1つか2つだけタグつけしておいて悩みません。
そして、技術系のネタであとで使うかも、なものについては帰宅後 del.icio.usにもpost。
SBMに入れておくと確かに量は増えていくのですが、探しにくさが出てきてしまったので使い分けです。
ある意味SBMの情報を効率よく取り出すだけでも、立派にサービスとして成立するのでは?とも思ってしまいます(どうしてもTaggingだけでは追いつかないor Tagのバラつきもあり‥)。
東京工業大学の宮田さんの提唱された、敢えてFolksonomyに縛られすぎない方向もありなのかも、と思いました。漠然としたTagをざっくりクラスタ化して囲ってしまいカテゴライズするetc.
そいうえば、SBM研究会の参加ブログでMixiでの告知と参加登録ではインターネット検索に上がってこないため、有識者の取りこぼしがあったのではないかと危惧されている方がいました。
ただ今回は、ボランティアベースでの運営であること、会場の収容可能なスペースを考慮すると、適当であったとも思われます。Mixiであれば参加人数のカウントがしやすいですし。
それとU-Streamはなかったものの、Twitterでリアルタイム中継がなされていた様子がリアルとネットの世界の結びつきに関する面白いネタになっていました。(自分の場合はケータイからモバツイでチェック)
以上、とても有意義な一日でした。
講演内容については、早速まとめてくださった方がいました。→参照
配布プレゼン資料は→参照
使い方や、共有知を探る意味でもSBMは面白い素材と思います。
そういえばAmazonでも「集合知プログラミング」なる書籍が2008/07.24に発売されるようです。
(洋書版買っておいたのですが、専門用語の多さに辟易してしまったので再購入するかも‥)
検索関連でタイムリーにたつをさんブログのTF-IDF記事が挙げられていてびっくり。
記事が2005年なのですが、実用性ありそうと探っていたのが先週で、、、既にこの理論を適用しているWebサービスがあったのですね。神林さん++
スラッシュドット横田さんの「2008年度アルファブロガーは"やるお"」というコメントもハッとした気づきがありました。
日本国内インターネット界隈で2chの与えるインパクト相当のものと思われるんですが、"やるお"の意味するところは
- 「まとまった知識をもつ(少々欠いていても読者が補ってくれることもあり)匿名の執筆者」
- 「初心者への動的対話に近い指南(会話=動的、書籍=静的の意味合いで)」
- 「シリーズ化された多岐にわたるテーマ群
(古典哲学から資本論、DTM、卒業論文、ハイパーインフレなどなど)」
集合知と啓発の観点でアルファブロガーやるおに一票。
ちなみにSBMの使い方なのですが、自分の場合は、外出先からケータイで気になる記事をはてなブックマークにpostしています。
ここでは、はてなRSSで拾ったものを対象に、技術系・雑多ネタなんでもどんどんpost。
大体1つか2つだけタグつけしておいて悩みません。
そして、技術系のネタであとで使うかも、なものについては帰宅後 del.icio.usにもpost。
SBMに入れておくと確かに量は増えていくのですが、探しにくさが出てきてしまったので使い分けです。
ある意味SBMの情報を効率よく取り出すだけでも、立派にサービスとして成立するのでは?とも思ってしまいます(どうしてもTaggingだけでは追いつかないor Tagのバラつきもあり‥)。
東京工業大学の宮田さんの提唱された、敢えてFolksonomyに縛られすぎない方向もありなのかも、と思いました。漠然としたTagをざっくりクラスタ化して囲ってしまいカテゴライズするetc.
そいうえば、SBM研究会の参加ブログでMixiでの告知と参加登録ではインターネット検索に上がってこないため、有識者の取りこぼしがあったのではないかと危惧されている方がいました。
ただ今回は、ボランティアベースでの運営であること、会場の収容可能なスペースを考慮すると、適当であったとも思われます。Mixiであれば参加人数のカウントがしやすいですし。
それとU-Streamはなかったものの、Twitterでリアルタイム中継がなされていた様子がリアルとネットの世界の結びつきに関する面白いネタになっていました。(自分の場合はケータイからモバツイでチェック)
以上、とても有意義な一日でした。
2008年7月8日火曜日
オープンソースハードウェア BUG
Code(中身)に触れたり、はんだづけのような工作は慣れないヒト少なくないかもですが、詰めた中身に合わせて目に見えるカタチで触れられる・確かめられるガジェットは大事と思います。
新鮮なインターフェースはそれ自体に惹かれます。
Engadget Japaneseのネタ再掲、技術LOVE。
リンク先オープンソースハードウェアなる「BUG」
記事
本体とオプションには下記のようなもの(と価格設定)があるそうです。
(個人で遊ぶにはまだ割高なイメージですが興味ありです)
このようなツールが産業と教育の架け橋になることを期待します。
いつ触って遊ぶかは検討中。
新鮮なインターフェースはそれ自体に惹かれます。
Engadget Japaneseのネタ再掲、技術LOVE。
リンク先オープンソースハードウェアなる「BUG」
記事
本体とオプションには下記のようなもの(と価格設定)があるそうです。
- モジュールを接続するコアとなるBugBaseは$349
- タッチスクリーン液晶モジュール:$99 / $119
- GPSモジュール: $79 / $99
- カメラモジュール: $69 / $79
- モーション / 加速度センサ: $49 / $59
(個人で遊ぶにはまだ割高なイメージですが興味ありです)
このようなツールが産業と教育の架け橋になることを期待します。
いつ触って遊ぶかは検討中。
2008年7月7日月曜日
検索技術背景のネタ帳
- Amazonから出るよメールが届きました。
上巻を購入したところ、やはりちょっと値が張るのですが、資料や図、例題が豊富で良書と思います。下巻は応用的な話し中心の様子。
パターン認識と機械学習(下) - Wikipediaのキーワードでも、歴史的なところも含み、パターン認識・ネットワークと系・強化学習・サポートベクターマシンなどなど、気ワードてんこもりなのでざっくり見ると面白いです。
Wikipedia:人工知能
自分の場合、統計用開発言語のRと併せてチェックします。
Rと複雑系(ニューラルネットワークとか)
Rとベイズ理論
Rとベイジアンネットワーク - CNETJapan記事(ベイズ理論と検索技術)は2003年※のものですが、含蓄あふれた文章で参考になります。
※Michael Kanellos著 2003/03/17
中でもベイズ理論の「物事の起きうる可能性は、その事柄の過去の発生頻度を利用すれば推測可能」と「推論の土台に確率論が潜んでいる」いうメッセージには強く惹かれました。
ひとの勘や直感、虫の知らせといったものが、自身の経験や、過去に刷り込まれた指導体験などをベースにしているのではないかという思いが言葉に込められている気がしました。
2008年7月5日土曜日
ファミコン時代の動画
ファミリーコンピュータCM動画を発見。
Gizmode Japan "ファミコン初期のCMコレクション"
マリオブラザーズはもちろん、エキサイトバイクとかくるくるランド、、懐かしい(体験時期6~7歳頃?)です。。
触ったことも聞いたこともなかったのですが、特筆すべきはガジェットは ”ロボット"(ソフト名は「ブロック」と「ジャイロ」)。
20年近く前の技術にビックリな印象を受けました。
恐らくまだ知らていない、けど忘れられている技術は埋もれているはず。。
Gizmode Japan "ファミコン初期のCMコレクション"
マリオブラザーズはもちろん、エキサイトバイクとかくるくるランド、、懐かしい(体験時期6~7歳頃?)です。。
触ったことも聞いたこともなかったのですが、特筆すべきはガジェットは ”ロボット"(ソフト名は「ブロック」と「ジャイロ」)。
- TV画面上の操作
- 1.と連動して、手元にあるロボットが動作&アクション
- 「ジャイロ」ではロボットのアクション(駒をつかんで位置を動かす)ことで、TVゲーム上のイベントに影響
20年近く前の技術にビックリな印象を受けました。
恐らくまだ知らていない、けど忘れられている技術は埋もれているはず。。
2008年7月4日金曜日
所感
こういうWebサービスは好き。。
ドラクエ風ジェネレータ@まねきねこプロジェクト
MobaSiFの勉強会@GREEがあるそうです。
YAPC::Asia2008を逃してしまっただけに行きたいなぁ。。
[追記20080704]
ふじもとさんからメール来ました。
人数制限なしで入れるそうです。よかったよかった。
[追記20080710]
行ってきました。MobaSiF(名:モバシフ)勉強会。
ケータイWebサービスフレームワーク。
「その設計思想がとてもタメになる」とふじもとさん(PHPフレームワークEthna開発者)。
使い回しの効くように極力贅肉をそいだコード、拡張・メンテナンスの容易さをウリにしたモジュール群。
基本はPerlで作られており、PerlからCを利用するXSを組み込んでおくことで動作が機敏になるそうです。
このように商売の種であつコードを公開しても大丈夫(一部揉めたとのことですが‥)なのは、運用のノウハウで差がつくから。
モバイルコンテンツを提供して業界内でいち早く走り出したDeNA社のもつ実績、先行者の強みは時間をかけて積み上げてきたものなんだと感じます。
ドラクエ風ジェネレータ@まねきねこプロジェクト
MobaSiFの勉強会@GREEがあるそうです。
YAPC::Asia2008を逃してしまっただけに行きたいなぁ。。
[追記20080704]
ふじもとさんからメール来ました。
人数制限なしで入れるそうです。よかったよかった。
[追記20080710]
行ってきました。MobaSiF(名:モバシフ)勉強会。
ケータイWebサービスフレームワーク。
「その設計思想がとてもタメになる」とふじもとさん(PHPフレームワークEthna開発者)。
使い回しの効くように極力贅肉をそいだコード、拡張・メンテナンスの容易さをウリにしたモジュール群。
基本はPerlで作られており、PerlからCを利用するXSを組み込んでおくことで動作が機敏になるそうです。
このように商売の種であつコードを公開しても大丈夫(一部揉めたとのことですが‥)なのは、運用のノウハウで差がつくから。
モバイルコンテンツを提供して業界内でいち早く走り出したDeNA社のもつ実績、先行者の強みは時間をかけて積み上げてきたものなんだと感じます。
2008年7月1日火曜日
MyRemix と Yahoo!Pipes
Yahoo!Pipesの日本語版(?) ngiグループ発。。
動画をRSSに入れたり、要不要なコンテンツを切り貼りするならこちらが楽かも。
"MyRemix"なるWebサービスです。
RSS(またはJSON)での出力が容易な点はYahoo!Pipesと同じ。
動画をRSSに入れたり、要不要なコンテンツを切り貼りするならこちらが楽かも。
"MyRemix"なるWebサービスです。
(操作動画) http://jp.youtube.com/watch?v=pvP0b4rFfyw&feature=related
RSS(またはJSON)での出力が容易な点はYahoo!Pipesと同じ。
異なる点は、GUI操作でXPathを指定することで、『出力後のRSS(動画も含む)の加工』も容易というところ。
さらにはAdobe Air対応により、オフライン環境、デスクトップでの利用も可。
研究テーマの一環で、オフライン環境に検索結果をRSSで持ち込もうとしていた自分としては、利用しやすいかも。。
いまのところはGears(旧GoogleGears)でのオフライン対応を検討していますが。
Yahoo!PipesにはBableFishなる多言語翻訳モジュールや正規表現、FetchPageでのHTML抜き出しモジュールも備えているだけに、テキストデータを扱うにはYahoo!Pipesに恐らく現時点では軍配が上が
ると思われます。
可能であればメタサーチエンジンとして、Yahoo!Pipesと併用できそう??
以降さらに調査していきます。
登録:
投稿 (Atom)