Я борюсь с проблемой, чтобы вырезать самое первое предложение из строки. Не было бы такой проблемы, если бы не было аббревиатур, заканчивающихся точкой.Использование регулярных выражений в Python
Так мой пример:
- строка = «Мне нравится сыр, автомобили и т.д., но мой самый любимый сайт StackOverflow. Моя новая лошадь называется Рэнди.
И результат должен быть:
- результат = 'Мне нравится сыр, автомобили и т.д., но мой самый любимый сайт StackOverflow.
Обычно я хотел бы сделать с:
re.findall(r'^(\s*.*?\s*)(?:\.|$)', event)
, но я хотел бы, чтобы пропустить некоторые заранее определенные слова, как выше т.д.
Я пришел с парой но никто из них не работал.
http://stackoverflow.com/a/1732454/203705 - вдвойне верно для естественного языка. Что вы действительно пытаетесь сделать? Какая большая проблема вы пытаетесь решить? –
У меня есть строка с некоторыми ссылками на события, и я создаю аббревиатуру для этого события. Как я выяснил, основная информация находится в первом предложении с названием события, но иногда используются аббревиатуры типа intern. = международный и так далее, и это действительно может быть болью в заднице. – skornos
Последний раз, когда я опубликовал ссылку Тони Пони, [tchrist] (http://stackoverflow.com/users/471272/tchrist) вышел из дерева и поспорил меня в подчинении. Во всяком случае, существуют ли какие-либо ограничения, или мы говорим о произвольных английских предложениях? Было бы полезно, если бы вы могли сказать, что ваш список заранее определенных слов (включая 'и т. Д.) Никогда не появляется в конце предложения или что предложение всегда начинается с заглавной буквы и слова после' и т. Д. 'никогда не делает. – cha0site