Как преобразовать HTML-страницу веб-страницы в org.w3c.dom.Documentin Java?Как преобразовать HTML-страницу веб-страницы в org.w3c.dom.Document в java?
ответ
Это на самом деле довольно сложно, потому что произвольные HTML-страницы иногда искажаются (основные браузеры довольно терпимы). Вы можете посмотреть в swing html parser, который я никогда не пробовал, но похоже, что это лучший вариант. Вы также можете попробовать что-то вдоль линий этого и обрабатывать любые исключения синтаксического анализа, которые могут возникнуть (хотя я только когда-либо пробовал это для XML):
import java.io.File;
import org.w3c.dom.Document;
import org.w3c.dom.*;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.xml.sax.SAXException;
import org.xml.sax.SAXParseException;
...
try {
DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder docBuilder = docBuilderFactory.newDocumentBuilder();
Document doc = docBuilder.parse (InputStreamYouBuiltEarlierFromAnHTTPRequest);
}
catch (ParserConfigurationException e)
{
...
}
catch (SAXException e)
{
...
}
catch (IOException e)
{
...
}
...
Я предлагаю http://about.validator.nu/htmlparser/, который реализует алгоритм синтаксического анализа HTML5. Firefox находится в процессе замены своего собственного парсера HTML этим.
Я только что играл с JSoup, который является фантастическим парсером Java HTML, который немного похож на jQuery. Действительно прост в использовании.
- 1. Как преобразовать объект org.w3c.dom.Document в строку?
- 2. org.w3c.dom.Document в JAVA
- 3. как преобразовать массив байтов в org.w3c.dom.Document
- 4. Получить htmlстраницу в ландшафтном режиме
- 5. Convert org.w3c.dom.Document в файл
- 6. Преобразование org.w3c.dom.Document в org.apache.html.dom.HTMLDocumentImpl
- 7. как конвертировать org.w3c.dom.Document в org.jdom.Document
- 8. Как получить подмножество Java XML org.w3c.dom.Document?
- 9. XML в строковом формате в org.w3c.dom.Document в Java
- 10. Преобразование HTML Строка org.w3c.dom.Document в Java
- 11. Как успокоить org.w3c.dom.Document?
- 12. org.w3c.dom.Document объект в RFT
- 13. Преобразование org.w3c.dom.Document в Java в строку, используя трансформатор
- 14. Преобразование XML-строки в org.w3c.dom.Document?
- 15. Как загрузить org.w3c.dom.Document из XML в строку?
- 16. Как получить значение значения элемента в org.w3c.dom.Document?
- 17. Scala: Convert org.w3c.dom.Document to scala.xml.NodeSeq
- 18. удалите некоторую строку XML в org.w3c.dom.Document
- 19. получение StackOverflowError при преобразовании org.w3c.dom.Document в org.dom4j.Document
- 20. Как получить элемент путем частичного имени тега из org.w3c.dom.Document Java
- 21. BASE64DecoderStream to Document (org.w3c.dom.Document)
- 22. Получить org.w3c.dom.Document из XMLResourceParser
- 23. Объединить два org.w3c.dom.Document
- 24. Как я могу создать HTML org.w3c.dom.Document?
- 25. Игнорировать org.xml.sax.SAXParseExceptions при переносе строки xml в org.w3c.dom.Document?
- 26. Печать org.w3c.dom.Document on jsp
- 27. Как преобразовать xml в java
- 28. Как преобразовать arraylist в java?
- 29. Как преобразовать «stringWithFormat» в Java?
- 30. Как преобразовать теги в Java