Я смотрю на создание приложения mashup, которое будет принимать заголовки субтитров из субредда и попытаться построить их на карте, основываясь на том, где они могут быть релевантными. Я также хотел бы добавить такие вещи, как Twitter позже.Извлечение названия страны из текстовой строки
У меня возникло затруднение в планировании - как определить, насколько наиболее вероятно, чтобы быть соответствующей страной из названия. Мое первое предположение состоит в том, чтобы иметь список стран, а также их соответствующие перестановки (например, «английский» соответствует «Англия» и т. Д.) И проверять наличие этих элементов в тексте. Однако это, вероятно, будет довольно медленным и потребует, чтобы я перечислил притяжательное имя для каждой страны.
Я планирую сделать это на Python (чтобы научиться его использовать), поэтому мне интересно, есть ли там) библиотека, которая это делает (и что я могу извлечь из нее), или б) более очевидный способ сделать это?
Чтобы дать представление о типах ввода я работаю с здесь некоторые образцы и то, что я пытаюсь выйти из них:
- «Ну они не могут арестовать всех нас - Давать средний палец британской правовой системы (рис) «
- Ключевое слово: Британский (Великобритания)
- » Опрос: Wikileaks Ассанж ведущий „Человек года“ Time - Ассанж, Австралиец, который был принесите шип в сторону Пентагона с его выпуском секретных военных документов США о войнах в Ираке и Афганистане, получил по пятницам 21 736 голосов ».
- Ключевые слова: Афганистан, Ирак, [Австралийский] (Афганистан, Ирак, [Австралия]) - Австралия будет трудно уловить, как в основном не имеет значения, но это приемлемо для моих целей
- «Cyber нападение на сайт Нобелевской премии мира. Оставайтесь классными, Китай ».
- Ключевое слово: Китай (Китай)
- «Еврейский хирург отказывается работать на пациента и выходит из операционной после открытия нацистскую татуировку на руке пациента.»
- Ключевые слова: ни один - приемлемые для моих целей
* Это, вероятно, неправильное слово, чтобы использовать
С помощью API вы можете получить предоставленные данные пользователя? – alex
Alex: Я, вероятно, буду использовать информацию геолока пользователя с твиттером, но в этом случае я в основном работаю только с заголовком. Я изучаю предметную индексацию, которая выглядит так же сложно, как в прошлый раз, когда я читал об этом :) – Ross
(1) s/Притяжательное/прилагательное/(2) Как вы будете различать, относится ли «английский» к стране, к языку , или люди? –