mycorpus.txtапостроф превращается в x92
Human where's machine interface for lab abc computer applications
A where's survey of user opinion of computer system response time
stopwords.txt
let's
ain't
there's
Следующий код
corpus = set()
for line in open("path\\to\\mycorpus.txt"):
corpus.update(set(line.lower().split()))
print corpus
stoplist = set()
for line in open("C:\\Users\\Pankaj\\Desktop\\BTP\\stopwords_new.txt"):
stoplist.add(line.lower().strip())
print stoplist
дает следующий вывод
set(['a', "where's", 'abc', 'for', 'of', 'system', 'lab', 'machine', 'applications', 'computer', 'survey', 'user', 'human', 'time', 'interface', 'opinion', 'response'])
set(['let\x92s', 'ain\x92t', 'there\x92s'])
Почему апостроф превращается в \ x92 во втором сете?
Никогда не используйте редакторы Microsoft, если вы хотите писать тексты ASCII. Если вы хотите использовать их, тогда вам придется обрабатывать cp1252 (который также включает в себя «правую кавычку»). – Bakuriu