2016-01-27 3 views
6

Я планирую выполнить некоторую настройку данных по своим данным.Как предсказать правильное название страны для имени страны?

Ситуация-У меня есть данные, которые имеют поле country. Он содержит имена стран, которые вводят пользователя (это может содержать орфографические ошибки или разные названия стран для той же страны, что и США/США/США для США). У меня есть список правильных названий стран.

Что я хочу? - Чтобы предсказать, к какой ближайшей стране это относится. Например, если дано U.S., оно изменится на USA (правильное название страны в нашем списке).

Есть ли способ, которым я могу это сделать, используя Java или opennlp или любой другой метод?

ответ

3

Вы можете использовать Getty API. Он даст вам сокращения названия страны. Просто играйте на этом API.

ИЛИ

Вы также можете использовать Levenshtein Distance, чтобы получить наиболее близкое название страны.

Попробуйте это. Вам поможет.

+0

Левенштейн Расстояние полезно! Но проблема в том, что для страны, такой как 'США', если данные имеют« Соединенные Штаты », тогда расстояние будет намного больше, чем должно быть! – AngryLeo

+0

@AyushBanka: В этот раз вы можете использовать API, который я добавил в ответ. Этот код [Git] (https://gist.github.com/maephisto/9228207) может вам помочь. Вы можете добавить свое. – iNikkz

0

Вы можете использовать автоматическое полное местоположение api в вашем текстовом поле или выбрать. , если вы будете использовать этот api, тогда вы получите Google, как авто полный intellisence при наборе текста. visit link

+0

Я хочу сделать настройку данных в фоновом режиме с данными, которые у меня есть. Я не уверен, будет ли автозаполнение полезным. Исправьте меня, если я ошибаюсь – AngryLeo

0

Если у вас есть городская или государственная информация, которая подвергается санации, вы можете посмотреть страну.

Вы также можете определить псевдонимы в своем списке названий стран и указать псевдонимы в предпочтительные обозначения. Например, США, США и США - это псевдонимы U.S.A. Вы можете заставить программу добавлять в базу данных псевдонимов так, чтобы она улучшалась по мере ее использования. Возможно, у вас есть несколько проходов по данным, а также определенная часть ручной работы.

Смежные вопросы