2010-04-19 2 views
0

Я новичок в синтаксических анализаторах. Мне нравится получать конкретные данные с веб-сайта. Для этого мне нужно использовать синтаксические анализаторы. Как начать работу с парсерами? Что мне нужно скачать? Каким будет код для извлечения данных с веб-сайта с использованием парсеров в Java?Начало работы с парсером в Java-коде

ответ

0

Мой совет будет использовать открытый исходный HTML-парсер, такие как HTMLCleaner - http://htmlcleaner.sourceforge.net/

Вы можете использовать HTMLCleaner (или аналогичный), чтобы создать представление веб-страницы DOM, а затем использовать это, чтобы извлечь любую информацию вы хотите с веб-страниц.

Процесс выглядит примерно так:

URL url = new URL("website you want to load"); 
HTMLCleaner h = new HTMLCleaner(); 
TagNode HtmlNode = h.clean(url.openStream()); 
//perform queries on the DOM to extract information