巨人の肩の上に登る

先人の積み重ねた発見に基づいて、なにかを発見しようとすることを指す。

自然言語処理

CaboChaをPythonで使う(Mac OS X)

忘れるのでメモ。 基本的に、公式サイト通り。 CaboChaのインストール ここから、該当するソースをダウンドロード。 事前に下記三点をインストールしている必要があります。 CRF++ (0.55以降) MeCab (0.993以降) mecab-ipadic, mecab-jumandic, unidic のい…

Python で word2vec を使ってみる

画像の出典 word2vecとは 単語のベクトル表現を獲得する一つの手法です。 word2vecの特徴としては、意味的な計算が可能な表現であるということです。 例えば次の式のように、kingのベクトルからmanのベクトルを差し引いたベクトルにwomanのベクトルを足し合…

PythonでN-gram

大学の課題で出たので,簡易に実装してみた. N-gramとは 自然言語処理の素性として良く使われる数量. 1-gram(uni-gram)だと,単語の頻度.2-gram(bi-gram)だと連続する二つの単語の出現頻度,3-gram(tri-gram)だと連続する三つの単語の出現頻度である. We…

Python で Stanford Parser を用いた構文解析

【13/10/05】 追記 relwellさんのforkのが良さそう. multi-threade で,安定してる気がする. Stanford のページに,多言語のラッパーが記載されています. 基本的に,Github のREADME通りで問題ないのですが,一応メモ. Stanford Parser の Python ラッパ…