巨人の肩の上に登る

先人の積み重ねた発見に基づいて、なにかを発見しようとすることを指す。

CaboChaをPythonで使う(Mac OS X)

忘れるのでメモ。
基本的に、公式サイト通り。

CaboChaのインストール

ここから、該当するソースをダウンドロード。

事前に下記三点をインストールしている必要があります。

  1. CRF++ (0.55以降)
  2. MeCab (0.993以降)
  3. mecab-ipadic, mecab-jumandic, unidic のいずれか
$ ./configure 
$ make
$ sudo make install --enable-utf8-only

Pythonのドライバ

Pythonのドライバは、先程ダウンロードしたディレクトリ内にあります。

$ cd cabocha-x.xx.tar.bz2/python
$ python setup.py install

PythonからCabochaを使う

import CaboCha

c = CaboCha.Parser()

sentence = "太郎はこの本を二郎を見た女性に渡した。"

tree =  c.parse(sentence)

print tree.toString(CaboCha.FORMAT_TREE)        # 簡易 Tree 表示での出力
print tree.toString(CaboCha.FORMAT_LATTICE)   # 計算機に処理しやすいフォーマットで出力
簡易 Tree 表示での出力
 太郎は-----------D
      この-D       |
        本を---D   |
        二郎を-D   |
            見た-D |
            女性に-D
            渡した。
EOS
計算機に処理しやすいフォーマットで出力
* 0 6D 0/1 -2.457381
太郎  名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
* 1 2D 0/0 1.509507
この  連体詞,*,*,*,*,*,この,コノ,コノ
* 2 4D 0/1 0.091699
本 名詞,一般,*,*,*,*,本,ホン,ホン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
* 3 4D 1/2 2.359707
二 名詞,数,*,*,*,*,二,ニ,ニ
郎 名詞,一般,*,*,*,*,郎,ロウ,ロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
* 4 5D 0/1 1.416783
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
* 5 6D 0/1 -2.457381
女性  名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
* 6 -1D 0/1 0.000000
渡し  動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
EOS


関連記事