Translate

2009年1月24日

茶筌でテキストマイニング(連結品詞)

品詞を結合して一語と見なす

茶筌でテキストマイニング(辞書の登録)で茶筌(Chasen)の辞書登録方法を説明しましたが、サンプルとして辞書登録した「テキストマイニング」は、辞書に登録をしなければ、下記の解析結果のように、「名詞-一般」と「名詞-サ変接続」に分解されます。同様に「統計解析」については、「名詞-サ変接続」と「名詞-サ変接続」に分解されます。

WinChaでの実行結果(連結品詞登録前)

未知語でない場合は、辞書登録以外にも連結品詞という方法で一語と判断させる方法があります。実際に試してみましょう。


chasenrcの変更

c:\Program Files\chasen21\dic\chasenrc をメモ帳やテキストエディターで開いて

;(連結品詞 ((名詞 数))
;((記号 アルファベット)))

の下に

(連結品詞 ((名詞 一般) (名詞 一般)(名詞 サ変接続)))

と追記して保存します。

上記は、「名詞-一般」若しくは「名詞-サ変接続」が連続する場合には、「名詞-一般」とするという意味になります。chasenrcを保存してWinChaを実行してみましょう。


WinChaでの実行結果(連結品詞登録後)


「データマイニング」「統計解析」何れも名詞一般として、一語として判断されました。

この連結品詞を使えば、

① 「2009年」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(名詞 接尾 助数詞)))

「10大ニュース」を一語(名詞)として解析
(連結品詞 ((名詞) (名詞 数)(接頭詞 名詞接続)(名詞 一般)))

③名詞が連続する場合には、すべて「名詞」とするのであれば、下記のように記載することも可能です。
(連結品詞 ((名詞)))

④連続する記号を一語として解析
(連結品詞 ((記号 一般)))

など、色々設定できるので試してみてください。

※数字は全角数字の場合のみ日本語として解析対象になります。(半角数字は未知語)

一時的に設定を未反映とするならば行頭にセミコロン(;)を付加してください。

;(連結品詞 ((名詞))

茶筌(Chasen)で辞書登録と連結品詞が使いこなせれば解析も随分と捗ります。

関連するブログ(茶筌でテキストマイニング);

0 件のコメント:

コメントを投稿

アクセス上位(過去7日間)