Мне нужно взять текст и удалить символ \ n, который, я считаю, я сделал. Следующая задача - удалить дефис из слов, где он не должен появляться, но оставить дефис в составных словах, где он должен появиться. Например, «encyclo- \ npedia to« энциклопедия »и« long-\ nterm »в« долгосрочный ». Предложение состоит в том, чтобы сравнить его с оригинальным текстом.Python - текстовое обертывание «Отменить»
with open('C:\Users\Paul\Desktop\Comp_Ling_Research_1\BROWN_A1_hypenated.txt', 'rU') as myfile:
data=myfile.read().replace('\n', '')
У меня есть общее представление о том, что делать, но NLP для меня совершенно новый.
спасибо. Я думал о том, как дефисить. Концептуально я написал это: # Если у вас есть два списка или файлы, # Для одного элемента в первом списке с дефисом #check для того же элемента во втором списке с дефисом или без него. # Если элемент во втором списке не имеет дефиса, то удалите дефис из первого списка. –
Может быть хорошая ссылка. Если я ищу удаление дефисов, я нахожу простой метод, но не как удалить дефисы на основе списка ссылок. Похоже, что это своего рода процесс обратного текстового обертки. –
импорта повторно с открытыми ('C: \ Users \ Paul \ BROWN_A1.txt', 'RU'), как truefile: true_corpus = truefile.read() true_tokens = true_corpus.split (»«) с открытой ('C: \ Users \ Paul \ Desktop \ Comp_Ling_Research_1 \ BROWN_A1_hy penated.txt', 'Rū'), как MYFILE: my_corpus = myfile.read() my_tokens = my_corpus.split (»«) –