ПРИМЕЧАНИЕ. Я неопытен регулярными выражениями.python, удаляющий ссылки из научной статьи
Я хочу, чтобы превращать научные статьи в треки iTunes. Для этого я копирую и вставляю текст в файлы txt и конвертирую их в голосовые дорожки. Однако, когда я делаю это, ссылки включаются, и голос компьютера читает их вслух, например. »(Smith J. et al., 2016)», и это раздражает, поскольку я хотел бы, чтобы он пропускал что-либо в скобках, содержащих ссылку. Следовательно, я хочу создать скрипт python, который удаляет все эти ссылки из файла txt, прежде чем преобразовывать его в разговорную дорожку. Я считаю, что я мог бы сделать это с чем-то вроде следующего кода:
start_ref=find("(")
finish_ref=find(")", start_ref)
# then remove all pieces of the string between each start and finish
Но это не является достаточно точным. Вместо этого я хотел бы как-то использовать регулярные выражения.
может кто-то показать мне пример кода о том, как я бы итерационные удалить ссылки из следующего текста (при учете различных стилей, ссылающийся, например, Гарвард против АРА и т.д.):
«Этот метод был показало, что они превзошли ранее обсуждавшиеся методы (Smith, J. et al., 2014), и, несмотря на то, что он имеет отклонения, ясно, что преимущества перевешивают недостатки (Jones, A. & Karver, B., 2009 , Lubber, H. et al., 2013). "
Может ли кто-нибудь предоставить пример кода?
Я думаю, вам понадобится больше, чем регулярное выражение, чтобы различать ссылку и некоторые другие скобки. – chepner
Echoing @ комментарий chepner, регулярных выражений, вероятно, будет недостаточно. Вы можете взглянуть на обработку естественного языка. – MattDMo
Кейтеринг только для одного из разных стилей - Гарвард * или * АПА - сам по себе уже довольно сложный вопрос. Blithely попытка поймать оба приведет только к еще более ложным матчам. – usr2564301