PythonでN-gram

大学の課題で出たので,簡易に実装してみた. N-gramとは 自然言語処理の素性として良く使われる数量. 1-gram(uni-gram)だと,単語の頻度.2-gram(bi-gram)だと連続する二つの単語の出現頻度,3-gram(tri-gram)だと連続する三つの単語の出現頻度である. Web文書を対象として,解析してみる. クローラー シードとなるURL…