Я использую JTidy (порт java библиотеки HTML Tidy) для очистки некоторых существующих сайтов. Когда я использовал свою конфигурацию JTidy, она кажется очень строгой и заканчивается тем, что отключает нижнюю часть страницы (плохая разметка).JTidy (HTML-Tidy) Конфигурация, используемая для w3c HTML Validator
Когда я запускаю одну и ту же разметку только с помощью инструмента проверки HTML w3c, он очищает его, но более интеллектуальен в своей перезаписи; вместо того, чтобы отрубать теги, кажется, разумно догадываться, где отсутствовал тег, и соответственно обновляет структуру.
Кто-нибудь знает, какая конфигурация HTML-Tidy использует w3c?
Мой jtidy configuratio выглядит следующим образом:
Tidy tidy = new Tidy();
tidy.setTidyMark(false);
tidy.setXHTML(true);
tidy.setXmlOut(false);
tidy.setNumEntities(true);
tidy.setSpaces(2);
tidy.setWraplen(2000);
tidy.setUpperCaseTags(false);
tidy.setUpperCaseAttrs(false);
tidy.setQuiet(false);
tidy.setMakeClean(true);
tidy.setShowWarnings(true);
tidy.setBreakBeforeBR(true);
tidy.setHideComments(true);