Я работаю над проектом NLP на основе Python/NLTK с текстом в формате unicode, отличным от английского. Для этого мне нужно найти строку unicode внутри предложения.Поиск символов Юникода в Python
Файл .txt сохранен с некоторыми предложениями, не связанными с английским юникодом. Использование NLTK PunktSentenceTokenizer Я сломал их и сохранил в списке python.
sentences = PunktSentenceTokenizer().tokenize(text)
Теперь я могу перебирать список и получить каждый sentence
отдельно.
Что мне нужно сделать, это пройти через этот sentence
и определить, какое слово имеет заданные символы Юникода.
Пример -
sentence = 'AASFG BBBSDC FEKGG SDFGF'
Предположит выше текст не является английским юникодом, и мне нужно, чтобы найти слова, оканчивающиеся GF
затем возвращают целое слово (может быть показателем этого слова).
search = 'SDFGF'
Точно так же я должен найти слова, начинающиеся с BB
получить слово.
search2 = 'BBBSDC'
Теперь я получил еще один вопрос. Из кода выше я мог найти слова, заканчивающиеся или начинающиеся с заданных букв. Как можно получить слово перед этим и за ним. Например, если я ищу GG и получил FEKGG, а затем мне нужно получить BBBSDC как слово вперед, SDFGF и слово позади. – ChamingaD
@ChamingaD Обновленный ответ – dbr