2012-01-05 2 views
0

На входе у меня есть простой текст (в моем случае обычно это будет HTML) и «спецификация грамматики» (в некотором роде для извлечения данных из обычного текста в структурированные данные), а затем на выходе I необходимо иметь некоторые структурированные данные (JSON в порядке, но, возможно, что-то лучше?)Извлечь структурированные данные из обычного текста

Есть ли библиотеки для этой задачи? Каковы хорошие подходы к определению «грамматической спецификации»? Каковы наилучшие подходы к решению такой проблемы?

+0

С каких пор HTML такой же, как и обычный текст? –

+0

Неясно, есть ли у вас спецификация грамматики или нет. Если да, то какой формат? – fge

+0

@DaDaDom, потому что это простой текст ... что это будет другая история – fge

ответ

2

Некоторые инструменты для преобразований на основе грамматики:

Дополнение

+0

- эти java-based? – MozenRath

+0

К сожалению нет. Каждый из них имеет свой декларативный язык для определения правил преобразования. – Raihan

+0

Я думаю, вы просто его потеряли – MozenRath

0

Посмотрите на jsoup для HTML разбора и и gson для Java-к-JSON.

+0

Мне нравится jsoup. Однако он недостаточно универсален по мере необходимости, но в моем случае это будет наиболее практичное решение. – Solvek

0

Для анализа HTML вам понадобится парсер DOM, который немного смягчен в зависимости от качества HTML-кода для его анализа с использованием спецификации грамматики, а затем вам нужно будет предоставить тип структуры данных, который вы хотите, и там являются библиотеками, которые делают это для вас

-1

Хорошо, если структура текстовых файлов хорошо сформирована, почему бы не использовать Java DOM API (или JDOM) в сочетании с DOCTYPE для создания объекта DOM? Оттуда вы можете перебирать этот объект и легко преобразовать его в JSON, используя что-то вроде библиотеки google-gson.

0

Посмотрите jilapi

Это происходит в неструктурированной виде простого текста и выдает структурированный JSON.

Смежные вопросы