У меня есть UTF-8 Unicode текстовый файл, как показано ниже (не английский)Итерация по списку питона
Так я отметил кодировку, UTF-8 в Python и импортировать файл в Python.
# -*- coding: utf-8 -*-
У меня есть выраженные предложения от "." и получил список предложений.
Теперь мне нужно сравнить с другим юникода списком слов и выяснить, является ли какой-либо из этих слов в каждом предложении.
Это мой код. Но это показывает только первый матч.
for sentence in sentences:
for word in sentence.split(" "):
if word in pronouns:
print sentence
EDIT:
Наконец я заметил, что недопустим Юникода символов в исходных текстовых файлах. Описывается здесь Tokenizing unicode using nltk
Нет ничего очевидного в том, что вы показываете нам. Подтвердили ли вы количество пунктов в предложениях? Есть ли более чем одно местоимение в стоге сена? – jwpfox
Как видите, есть 6 предложений. и есть множество местоимений. Каждое из этих предложений начиналось с одного местоимения в списке. Поэтому он должен показывать все предложения один за другим. – ChamingaD
Вам, вероятно, лучше всего использовать 'sentence.split()'. Некоторые алфавиты могут иметь пробельные символы, которые не соответствуют символу '' ''. – llb