Я новичок в синтаксических анализаторах. Мне нравится получать конкретные данные с веб-сайта. Для этого мне нужно использовать синтаксические анализаторы. Как начать работу с парсерами? Что мне нужно скачать? Каким будет код для извлечения данных с веб-сайта с использованием парсеров в Java?Начало работы с парсером в Java-коде
0
A
ответ
0
Мой совет будет использовать открытый исходный HTML-парсер, такие как HTMLCleaner - http://htmlcleaner.sourceforge.net/
Вы можете использовать HTMLCleaner (или аналогичный), чтобы создать представление веб-страницы DOM, а затем использовать это, чтобы извлечь любую информацию вы хотите с веб-страниц.
Процесс выглядит примерно так:
URL url = new URL("website you want to load");
HTMLCleaner h = new HTMLCleaner();
TagNode HtmlNode = h.clean(url.openStream());
//perform queries on the DOM to extract information
Смежные вопросы
- 1. начало работы со Стэнфордским парсером в jruby
- 2. Начало работы с QuickBlox
- 3. Начало работы с анимацией
- 4. Начало работы с LightInject
- 5. Начало работы с EHCache
- 6. Начало работы с Эльмой?
- 7. начало работы с ископаемым
- 8. Начало работы с scalafx?
- 9. начало работы с LESS
- 10. Начало работы с BizTalk
- 11. Начало работы с BI
- 12. Начало работы с Yesod
- 13. Начало работы с Durandal
- 14. Начало работы с PyOpenCL
- 15. Начало работы с UDK
- 16. Начало работы с ngComponentRouter
- 17. Начало работы с SableCC
- 18. Начало работы с WebParts
- 19. Начало работы с JavaMe
- 20. Начало работы с MySQL
- 21. Начало работы с Pylons
- 22. Начало работы с предохранителем
- 23. Начало работы с Cascading
- 24. Начало работы с libftdi
- 25. Начало работы с cfwebsocket
- 26. Начало работы с ColdFusion?
- 27. Начало работы с профилями
- 28. Начало работы с purescript
- 29. Начало работы с Solr
- 30. Начало работы с struts2