2010-11-13 3 views
2

Я смотрю на создание приложения mashup, которое будет принимать заголовки субтитров из субредда и попытаться построить их на карте, основываясь на том, где они могут быть релевантными. Я также хотел бы добавить такие вещи, как Twitter позже.Извлечение названия страны из текстовой строки

У меня возникло затруднение в планировании - как определить, насколько наиболее вероятно, чтобы быть соответствующей страной из названия. Мое первое предположение состоит в том, чтобы иметь список стран, а также их соответствующие перестановки (например, «английский» соответствует «Англия» и т. Д.) И проверять наличие этих элементов в тексте. Однако это, вероятно, будет довольно медленным и потребует, чтобы я перечислил притяжательное имя для каждой страны.

Я планирую сделать это на Python (чтобы научиться его использовать), поэтому мне интересно, есть ли там) библиотека, которая это делает (и что я могу извлечь из нее), или б) более очевидный способ сделать это?

Чтобы дать представление о типах ввода я работаю с здесь некоторые образцы и то, что я пытаюсь выйти из них:

  • «Ну они не могут арестовать всех нас - Давать средний палец британской правовой системы (рис) «
    • Ключевое слово: Британский (Великобритания)
  • » Опрос: Wikileaks Ассанж ведущий „Человек года“ Time - Ассанж, Австралиец, который был принесите шип в сторону Пентагона с его выпуском секретных военных документов США о войнах в Ираке и Афганистане, получил по пятницам 21 736 голосов ».
    • Ключевые слова: Афганистан, Ирак, [Австралийский] (Афганистан, Ирак, [Австралия]) - Австралия будет трудно уловить, как в основном не имеет значения, но это приемлемо для моих целей
  • «Cyber нападение на сайт Нобелевской премии мира. Оставайтесь классными, Китай ».
    • Ключевое слово: Китай (Китай)
  • «Еврейский хирург отказывается работать на пациента и выходит из операционной после открытия нацистскую татуировку на руке пациента.»
    • Ключевые слова: ни один - приемлемые для моих целей

* Это, вероятно, неправильное слово, чтобы использовать

+0

С помощью API вы можете получить предоставленные данные пользователя? – alex

+0

Alex: Я, вероятно, буду использовать информацию геолока пользователя с твиттером, но в этом случае я в основном работаю только с заголовком. Я изучаю предметную индексацию, которая выглядит так же сложно, как в прошлый раз, когда я читал об этом :) – Ross

+0

(1) s/Притяжательное/прилагательное/(2) Как вы будете различать, относится ли «английский» к стране, к языку , или люди? –

ответ

3

Вы можете смотреть в Yahoo! Place Maker API

Placemaker обеспечивает геообогащение для чрезвычайно значительная доля Веб-контент, который географически релевантный, но не географически обнаруживается.Снабжен свободная форма текстом, служба определяет места , упомянутых в тексте, устраняет неоднозначность этих места, и возвращает уникальные идентификаторы (WOEIDs) для каждого, а также информации о том, сколько раз места было найдено в тексте , и где в тексте он был найден. WOEID , возвращенные службой, могут быть переданы в API GeoPlanet ™ Yahoo для дальнейшего использования географического обогащения и обнаружения.

+0

Исправьте меня, если я ошибаюсь, но похоже, что вам нужно дать им название места, а не только текст, содержащий имя места где-то в нем. Несмотря на это, я, вероятно, буду использовать этот вариант или вариант Google. – Ross

+2

В нем указано «Предоставляется текст свободной формы, служба идентифицирует места, упомянутые в тексте, устраняет неоднозначность этих мест и возвращает уникальные идентификаторы» в моей приведенной выше цитате, которая, в свою очередь, цитируется в Yahoo! самой страницы. Итак, я предполагаю, что он действительно собирает имена мест * внутри * текста. –

0

Используйте индекс поиска FullText в MySQL. Затем используйте вызовы AJAX для запроса к вашей базе данных.

+0

Я знаю, это будет звучать странно, но я хотел бы узнать больше о том, как это делается, а не делать это. Кроме того, я не совсем уверен, но разве это не значит, что я должен был бы запрашивать каждую страну? Я хотел бы знать, к какой стране относится история, просто запустив функцию в заголовке. – Ross

Смежные вопросы