Я пишу поисковую систему, которая отправляется на все мои дочерние веб-сайты компании parse html и хранит их в базе данных. Эти веб-сайты действительно старые и не соответствуют требованиям html из 100000 сайтов, у которых около 25% имеют плохой html, что затрудняет анализ. Мне нужно написать код C#, который может исправить плохой html, а затем проанализировать содержимое или придумать решение, которое будет адресовать вышеупомянутую проблему. Если вы сидите на идее, фактический намек или фрагмент кода помогут.Как разобрать плохой html?
ответ
Просто используйте Html Agility Pack. Очень хорошо разбирать неисправный html-код
+1 Для HAP для синтаксического анализа плохо сформированного HTML. – Oded
-1 к HAP: он анализирует его, но полностью ошибочно использует DOM-модель для нескольких страниц, на которых я пробовал. –
Используйте анализатор tagoup, я уверен, что это one for C#. Затем вы можете сериализовать DOM на более-менее корректный HTML, в зависимости от того, соответствует ли этот парсер HTML DTD. В качестве альтернативы вы можете использовать HTML Tidy, что позволит устранить, по крайней мере, самые худшие ошибки.
Regexes не применимы для этой задачи.
- 1. Как правильно разобрать этот плохой html в Nokogiri?
- 2. Как разобрать частичный HTML?
- 3. Как разобрать закодированный HTML
- 4. Как разобрать HTML-узлы
- 5. Java jsoup разобрать как разобрать HTML
- 6. Плохой вывод html
- 7. Как разобрать html с HTML :: TreeBuilder?
- 8. Как разобрать [HTML Object] для HTML строки
- 9. Как разобрать HTML, используя Nokogiri?
- 10. Как просто разобрать html ссылки
- 11. Как разобрать HTML с PHP?
- 12. ios - Как разобрать HTML-файл?
- 13. Как разобрать HTML в Rails?
- 14. Как разобрать HTML в AutoHotKey?
- 15. Как разобрать li из html
- 16. Как разобрать Html отформатированный элемент
- 17. Как разобрать XML код HTML
- 18. как разобрать php и html
- 19. Javadoc: Как исправить: «плохой HTML сущность» ошибка
- 20. org.xml.sax.SAXException: Плохой тег конверта: html
- 21. Negative опережения разобрать HTML
- 22. Jasper отчет генерации плохой HTML
- 23. JQuery не разобрать HTML
- 24. java: как разобрать html-как xml
- 25. Как разобрать HTML с jQuery mobile
- 26. Как разобрать файл html с помощью clojure?
- 27. Как разобрать таблицу HTML с помощью jsoup?
- 28. Как Разобрать HTML с использованием JSoup
- 29. Как разобрать HTML полную страницу в android
- 30. Как лучше разобрать html в PHP?
Возможный дубликат http://stackoverflow.com/questions/4587727/screen-scraping-html-with-c-sharp – Ani
Я знаю, что Wordpress имеет автокорректный html-код, вы можете просмотреть его исходный код, чтобы узнать, как они это делают - и попробуйте ту же логику –
Что вы подразумеваете под плохим html? Если теги не закрыты и что-то вроде этого, я думаю, что синтаксический анализ будет кошмаром. –