Я хочу получить все слова с минимальной частотой 5 с помощью NLTK и сохранить их в переменной для последующей обработки. В книге NLTK ничего не найти. Заранее спасибо.Извлечь все слова с минимальной частотой 5
Редактировать: Я использую этот код и хочу отфильтровывать слова, которые не отображаются более 5 раз.
import os
import glob
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
def create():
read_files = glob.glob("D:\\test\\text\\*.txt")
with open("D:\\test\\temp.txt", "wb") as outfile:
for f in read_files:
with open(f, "rb") as infile:
outfile.write(infile.read())
def modify():
tokenizer = RegexpTokenizer("[\w']+")
english_stops = set(stopwords.words('english'))
f = open('D:\\test\\temp.txt')
out = open('D:\\test\\result.txt', 'w')
raw = f.read()
a = tokenizer.tokenize(raw)
a = [word.lower() for word in a if word not in english_stops]
a = list(set(a))
print(a, file=out)
def remove():
os.remove("D:\\test\\temp.txt")
if __name__ == '__main__':
create()
modify()
remove()
Не все описано в книгах. Попробуйте написать код. –
Я стараюсь, но небольшая помощь будет хорошей. – Masyaf