2010-03-24 4 views
-1

Как преобразовать неструктурированные данные в структурированные данные? Например, контакты электронной почты из неструктурированного текста в структурированный формат.преобразовывать неструктурированные данные в структурированные данные?

Есть ли алгоритмы для этого?

+0

, пожалуйста, предоставьте более подробную информацию .. что-то вроде ввода образца и вывода проб будет полезно для понимания вашей проблемы. Что и почему вы хотите преобразовать, по электронной почте, например, вы хотите получить все идентификаторы, удаляющие часть домена или что-то еще, или вам просто нужен CSV идентификаторов электронной почты. Поместите еще несколько деталей, пожалуйста ... – mkamthan

+0

Пожалуйста, отредактируйте описание, чтобы объяснить, какой язык программирования вы собираетесь использовать, и (если это так) пометьте свой вопрос на этом языке. – bignose

+0

@mkamthan: в основном получение идентификаторов и сохранение в поле электронной почты в базе данных. – Jony

ответ

4

Существует не общий алгоритм «принимать неструктурированные данные и преобразовывать их в структурированные данные», нет. Это сильно зависит от того, что возможный диапазон ввода является и то, что желаемая структура, и то, что преобразования должны быть применены, и т.д.

класс задач называется «разбор»: вам нужно построить синтаксический анализатор для конкретных ожидаемых вами входов и использовать этот анализатор для генерации структуры из того, что он обнаруживает о вводимом вами входе.

В вашем языке программирования, вероятно, будут доступны библиотеки для анализа, чтобы помочь создать конкретный синтаксический анализатор.

+0

Можете ли вы рассказать нам о любых сторонних парсерах, которые могут это сделать? – Jony

Смежные вопросы