Я ищу алгоритмы для построения структур данных, которые можно использовать для исправления разбитого HTML. Я знаю, что на каждом языке существует множество встроенных инструментов для этого. Но я хочу это узнать. Некоторые подходы я могу думать -Алгоритмы для исправления разбитого HTML
- Использование регулярных выражений - кажется наивным подходом
- Создание DOM - но как бы DOM дерево получить созданный с разбитым HTML?
ОБНОВЛЕНИЕ: Это более общая дискуссия, которую я ожидаю. Но если вы ссылаетесь на какие-либо инструменты на C, C++, Python или Java, я в порядке.
благодаря
Хорошая ссылка, хотя смешно, что она говорит «В результате путаницы - с валидаторами, утверждающими, что документы имеют одно представление, в то время как широко развернутые веб-браузеры функционально реализованы в другом представлении - потеряли десятилетия производительности». Даже «широко развернутых» веб-браузеров даже не было «десятилетий», если они не означают «1,5 десятилетия». –
человеко-десятилетия! :) – Quentin