2010-11-07 4 views
1

Я пытаюсь написать данные анализатор компании, которые могут разделить текст как следующее в это составные части:организация Подробности Признание

Фалес ЗЕМЛИ И СОВМЕСТНЫЕ СИСТЕМЫ

Общее управление Подпись

Wookey Hole Road

Wells

Сомерсет

BA5 1AA

Tel: +44 (0) 1749 682384

Факс: +44 (0) 1749 682235

Проблемы я имею, как я могу сказать, что «Общее управление подписью» на самом деле не является частью адреса? Обычно компания будет отображать свое название «THALES LAND AND JOINT SYSTEM», и строка 2 обычно будет первой частью адреса.

В случае, указанном выше, название компании сопровождается не адресной частью, есть ли все равно, чтобы сказать разницу?

Благодаря

ответ

0

Вы можете вычислить вероятность Адрес < -> Описание на основе происходящих слов. В этом примере это совершенно очевидно: «дорожная» линия, скорее всего, будет частью адреса, чем линия «управление».

Это должно сработать, если часть без адреса появится только после названия компании. Если возможно, что неадресные части могут быть найдены где-то в тексте, становится невозможным их разделить без дополнительной информации.

Возможно, вы хотите взглянуть на similar question, который я задал вчера.

Редактировать: Вы можете создать статистическую модель, основанную на предыдущих категоризированных адресах-частях (те, которые вы уверены, что они являются адресами;)).

Смежные вопросы