(python2.7)
def ngrams(text, n): text_list = list(text) return [text_list[i:i + n] for i, char in enumerate(text_list)] ngrams_list = ngrams(u"今日はいい天気ですね。", 2) print(("\n").join([u"{}".format(u"".join(chars)).encode('utf8') for chars in ngrams_list])) """ 今日 日は はい いい い天 天気 気で です すね ね。 。 """
nltk ライブラリを使って見る
インストール
$ pip install nltk
from nltk import ngrams ngrams_generator = ngrams(u"今日はいい天気ですね。", 2) print(("\n").join([u"{}{}".format(a, b).encode('utf8') for a, b in ngrams_generator])) """ 今日 日は はい いい い天 天気 気で です すね ね。 """