Я ищу, чтобы изменить мою карту уменьшить файлы для вывода лучших биграмм в куске текста, а не количество слов, так как слова и графы биграммMapReduce и Python: биграммы
Это мой текущий код и подход.
Карта:
import sys
for line in sys.stdin:
line = line.strip()
words = line.split() #bigrams = line.split()
for word in words: #for bigram in words
print '%s\t%s' % (word,1) #print ... word pair???
Сокращать
mydict = dict()
for line in sys.stdin:
(word,cnt) = line.strip().split('\t') #bigram and bigram count
mydict[word] = mydict.get(word,0) 1
for word,cnt in mydict.items():
print word,cnt #print bigram and bigram count
Спасибо.
Я видел nltk как популярное решение для вычисления биграмм, должен ли я использовать этот подход даже в моем формате mapreduce?