Я ищу для извлечения определенных предметов из большого пула неструктурированных документов. Эти документы могут быть 1-5 страниц текста, отформатированный различными способами со стороны пользователя, но в большинстве случаев будет содержать по меньшей мере:Извлечение демографической и контактной информации из неструктурированных текстовых файлов
- Имя
- Адрес (физический)
- Адрес электронной почты
- Телефон номер
- сайт URL
Я ищу семантический анализатор, который может попытаться извлечь эти элементы из документов, так что я могу загрузить т шляпу в реляционную базу данных и работать с этими записями в качестве контактов.
Другие услуги, которые я искал, хотя и ценны для других целей, не учитывают эту конкретную потребность.
Любые мысли, предложения или выводы?