2010-06-01 4 views
0

Я ищу для извлечения определенных предметов из большого пула неструктурированных документов. Эти документы могут быть 1-5 страниц текста, отформатированный различными способами со стороны пользователя, но в большинстве случаев будет содержать по меньшей мере:Извлечение демографической и контактной информации из неструктурированных текстовых файлов

  • Имя
  • Адрес (физический)
  • Адрес электронной почты
  • Телефон номер
  • сайт URL

Я ищу семантический анализатор, который может попытаться извлечь эти элементы из документов, так что я могу загрузить т шляпу в реляционную базу данных и работать с этими записями в качестве контактов.

Другие услуги, которые я искал, хотя и ценны для других целей, не учитывают эту конкретную потребность.

Любые мысли, предложения или выводы?

ответ

0

Вы нашли ссылку на ваш вопрос? Я нашел несколько научных статей:

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192 & Rep = REP1 & тип = PDF

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

Но никаких конкретных примеров кода по реализации любого из этих идей.

Взгляните на это тоже: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(жаль, что я исключил HTTP, эта система не позволяет мне размещать более одного URL-адреса/ссылки)

Смежные вопросы