Lingua::JA::Summarizeでキーワード抽出を試行。(nomoさんのnemolog同名記事)
下記の足りないモジュールはPPMからインストール。- HTTP::GHTTP
- HTML::Strip
‥
Lingua-JA-Summarize-0.08/lib/Lingua/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize/Meca
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize.pm
‥でインストール完了。
参照記事には21行目に{}のsyntax errorがあるので補って、再試行。
‥
Mecabがバッチファイルとして認識されてないとな。。
ということで、環境変数pathにC:\Program Files\MeCab\bin追記しておけばOK。
C:\Users\hoge>mecab -v
バージョン確認
mecab of 0.96
XAMPPとMecabの設定は後述のリンク先(5×2.info 内記事)。
Mecab用の辞書作成法なども。
ひとまずここはエンコード優先(nemolog記事のソースの該当部なら)
mecab_charset => 'uft8' を
mecab_charset => 'shiftjis' に修正すればOK。
[下記ソースの一部]
#文字コードとか調整、デフォルトの単語の重み設定も
my $s = Lingua::JA::Summarize->new({charset => 'utf8',
mecab_charset => 'shiftjis',
default_cost => 1.5,
singlechar_factor => 0.2
});
#ここで重みつけ
$s->analyze($clean_text);
my @keywords = $s->keywords({threshold => 5,
minwords => 10,
maxwords => 15
以上のような形で、キーワードが設定した情報に沿って列挙される。
次は辞書作りに取り組みたい。。
0 件のコメント:
コメントを投稿