Translate

2009年1月18日

茶筌でテキストマイニング(辞書の登録)

最近では、アンケート調査結果の自由回答文をテキストマイニングツールを用いてテキストマイニングを実施するのが当たり前となっていますが、一番最初は、茶筌(Chasen)を使って単語の出現頻度を調べていました。設問を工夫すれば茶筌だけでもかなりの発見があります。

【設問】雑誌に掲載して欲しい記事は?

この場合であれば、名詞句を中心にカウントするだけでも発見はあります。

【設問】新製品の○○について味をひとことで表現すると?

この場合は、名詞句、形容詞句でしょうか。

ここでは、当時お世話になった茶筌についての利用方法について掲載しておきます。


茶筌 version 2.1 for Windows のインストール

茶筌(Chasen)とは、奈良先端科学技術大学院大学松本研究室で開発された形態素解析のツールです。Windows版も提供されています。こちらから「cha21244sp5.exe」がダウンロードできます。


茶筌の実行

WinCha 2000を起動して「テキストマイニングとマインドマップについて考える」と文章を入力して実行した結果が下記になります。(チェックは、表層語と品詞です。)

辞書登録前の実行結果

「データマイニング」は、「データ」と「マイニング」にマインドマップは、「マインド」と「マップ」に分解されています。これは、茶筌(Chasen)の辞書には、「データマイニング」や「マインドマップ」が一語として登録されていないからです。またGoogleやYahooなどは、未知語となります。

このままでは、品詞ごとに単語の出現頻度をカウントするのにもちょっと不便です。

茶筌(Chasen)の辞書登録

そこで、自分で辞書を作成して登録必要があります。辞書登録はコマンドベースのツールしか提供されていませんので、以下の手順で実施してください。


辞書ファイルのダウンロード

茶筌(Chasen)は辞書としてIPA品詞体系を利用していますので、IPADICをダウンロードします。気をつけなければならないのは、IPADICのバージョンです。最新版の辞書もリリースされていますが、WinChaで辞書作成では、こちら からipadic-sjis-2.5.0.zipをダウンロードしてください。


辞書ファイルの展開

c:\Program Files\chasen21 の下にMyDicフォルダを作成します。MyDicにipadic-sjis-2.5.0から下記の4ファイルをコピーして下さい。

connect.cha(連接表ファイル)
grammar.cha(品詞定義ファイル)
ctypes.cha(活用型定義ファイル)
cforms.cha(活用形定義ファイル)

次にipadic-sjis-2.5.0の中にある,Makefile.bat をc:\Program Files\chasen21 にコピーします。


辞書作成実行ファイルの変更

Makefile.batをメモ帳などで開いて、MyDicフォルダで処理をして、作成辞書名をMyDicにするように下記のように内容を変更します。

8行目
変更前:cd dic
変更後:cd MyDic

33行目
変更前:..\mkchadic\sortdic chadic.txt chadic.int
変更後:..\mkchadic\sortdic chadic.txt MyDic.int

40行目
変更前:..\mkchadic\pattool -F chadic
変更後:..\mkchadic\pattool -F MyDic 

辞書登録

MyDicフォルダの下にMyDic.dicというファイルを作成します。ここに下記の辞書内容を定義します。

c:\Program Files\chasen21\MyDic\MyDic.dic
(品詞 (名詞 一般)) ((見出し語 (データマイニング 5000)) (読み データマイニング)) (品詞 (名詞 固有名詞 一般)) ((見出し語 (マインドマップ 5000)) (読み マインドマップ))

辞書作成

Windowsのスタートメニューにある「ファイル名を指定して実行」でcmdと入力して、コマンドプロンプトを立ち上げます。

プロントでcd c:\Program Files\chasen21 と入力してEnterキーを押してください。C:\Program Files\chasen21と表示されますので、続いてmakefileと入力してEnterキーを押すと辞書ファイルの作成が始まります。

下記のように最後にchasen dictionary copiled successfully.と表示されると辞書ファイルの作成は終了です。exitと入力してコマンドプロンプトを終了させます。


再生した辞書ファイルの登録

MyDicフォルダを参照すると下記の4ファイルが作成されています。

MyDic.in
MyDic.pat
matrix.cha
table.cha

この中のMyDic.intとMyDic.patをc:\Program Files\chasen21\dicにコピーします。


MakeFile.bat に上記2ファイルをコピーする記述(赤字部分)を追加すると便利です。

@echo pattool...
..\mkchadic\pattool -F MyDic
if errorlevel 1 goto ERROREXIT

@echo copy jisho-files...
copy /y mydic.pat ..\dic\
copy /y mydic.int ..\dic\

cd ..


環境設定ファイルの変更

茶筌が新たに作成した辞書を参照できるようにc:\Program Files\chasen21\dicにあるchasenrcの内容を変更します。

2行目
変更前:(PATDIC        chadic)
変更後:(PATDIC        chadic MyDic)

これで新しく作成したMyDic辞書も参照されるようになります。WinCha 2000を起動して先程と同様に

「テキストマイニングとマインドマップについて考える」と文章を入力して実行します。

今度は、データマイニングもマインドマップも登録した辞書に従い、一語として認識されます。

辞書登録後の実行結果

関連するブログ(茶筌でテキストマイニング);

関連するブログ(茶筌でテキストマイニング);

0 件のコメント:

コメントを投稿

アクセス上位(過去7日間)