ラベル yahoopipes の投稿を表示しています。 すべての投稿を表示
ラベル yahoopipes の投稿を表示しています。 すべての投稿を表示

2008年6月7日土曜日

研究進捗@20070607

研究テーマは "Web上の技術情報を簡便に取得する方法" 、です。

Yahoo!Pipesを情報取得ネットワークのハブのように利用する案で検討中。

基本的なWebアプリは実装完了。


  1. キーワード検索と表示件数を設定して‥(以下では"sqlplus" , "50"件表示)










  2. RSSデータの検索結果を表示。











一度に目視でどのような情報が取れたかわかる点は大事と思う。
なのでカラムごとにデータを3分割。

それとGoogle検索のように10件ごとのデータ取得に不満な人(詳細検索で何件表示するかなどは変更可だけど、それを利用する人は多くないし)も対象にしたかったので、表示件数も指定OK。

URL次第で検索結果が加工できるYahoo!Pipesは便利です。


参照リンク先→過去ブログ@20080531


◇20080614追記

遷移先Webサイトの様子がリンク前に判断できるようにページのサムネイルをつけてみました。
これならば逐一リンクして調べて、の手間が省けると思います。
(サムネイル作成は Simple.API を拝借)

リンク先の検索フォームを見つけて、現在のページから、さらに2段階目の情報検索ができるように実装予定。。


2008年5月31日土曜日

Yahoo!Pipes 制作物(Google/Yahoo!検索Pipe)

TopPageの検索結果だけ対象ですが、日本語版Google検索PipeとYahoo!検索Pipeを作りました。
(デフォルトでは英語版しか用意されてない & 翻訳Pipeでは結果に違和感あったので‥)


【特徴】

・検索結果TopページのデータをRSSで出力可能

・キーワードは任意でURLへ入れて使う
(自分の場合はWebアプリに仕込むので、検索結果RSSの各URLにキーワードクエリを渡して、配列にして取ってきます。)

・「keywords で検索対象のキーワードを指定する」

・「input number で表示したい検索結果件数を指定する」


※気まぐれで500Errorが出ることも。。

  • Google検索
    (元データはhtmlなので、FetchPageモジュールで検索結果を抽出&Regexpで不要なmetatag列を削除&RenameモジュールでRSS化)

    http://pipes.yahoo.com/pipes/pipe.run?_id=f1c7d25931aaa47ad6e59f6683656e38&_render=rss&keywords=(キーワード)&numberinput=(表示件数)

    例:SQL


  • Yahoo!検索
    (元データは検索WebServiceのXMLなので、不要なmetatagをRegexpで除去してからFetchDataでRSS加工)

    http://pipes.yahoo.com/pipes/pipe.run?_id=kg4GW_QH3RGc0zDMiXrL0A&_render=rss&keywords=(キーワード)&numberinput=(表示件数)

    例:SQL

  • これは拝借物ですが、PowerSet検索
    (Pipe制作する上でとても参考になります)

    http://pipes.yahoo.com/pipes/pipe.run?_id=5d07e2ff70a3612039b9188e6394439d&_render=rss&text=(キーセンテンス/英語質問文)

    例:What is SQL?


Topページ(検索結果1ページ目/1~10件)だけでなく11件目以降をRSSで取るには、新たに別のPipeを追加しないといけないところが難点なので解決を図ります。

とりあえずこれでYahoo!Pipesを情報収集ハブとして使う目途が立ってきました。。


(追記@2008/06/01)

Yahoo!Pipesで作成してあるPipeで「Input nymber で表示したい検索結果件数を指定する」機能を追加しました。(デフォルトでは50件表示に)

この延長で「検索対象の言語指定」、「URLに検索キーワードが含まれているかどうか選択」など機能追加できます。

具体的にはRSSを出力するURLをYahoo!Pipesで生成するだけでOK。
参照サイト→WebOSGoodies


(追記@2008/06/07)

PowerSet のPipeが使えなくなってました。。
考えられるのは、、サイトデザイン変更に伴うPageFetchに失敗したとか…?

自力で作成しようと検討中。


→作りました。(@2008/06/08)
Babelfish モジュールで「英→日」変換は一発です。

翻訳の精度はGoogle翻訳APIと比較してみたいかも。。

2008年5月18日日曜日

Yahoo!Pipes 作成中

デフォルトでは、Google検索・Yahoo!サーチともに日本語での検索結果をRSSで受け取るpipeは用意されてないので作成中。

正規表現試しながらなのでペース遅いです。

いやはや、全文検索(自然言語処理)のPowerSetのPipesができてたのは焦り。



過程で参照しているサイトは下記にて。

PipesからのRSSの作り方がわかりやすいフロー

Yahoo!Pipesモジュール和訳一覧

Fetch Pageの用法
各モジュールとFetchPageの組み合わせ方

Regrexでタイトル置き換え

PipesからJSONPで出力(roopの使い方も)

正規表現用法

Regrexモジュールのチェックボックスには言及が少ないので転載。

  • gオプション:繰り返してマッチを行う
  • sオプション:ワイルドカードのドット( . )が改行にもマッチするようにする
  • mオプション:対象のパターンに改行が含まれていても、その改行にまたがってパターンを検索する
  • iオプション:大文字と小文字を区別しないでマッチングする


以前の話し。。
Saerch&RSS経由で前述の検索結果を拾うPipeを作ってみたものの、返ってきたRSSのtitle,descriptionの文字化け問題が解決できず断念。。

今回は直接検索ページから抜き出したので文字化けはおそらく起きないはず(UTF-8で統一)。

Blogger Syntax Highliter