Я пытаюсь очистить форму html с помощью robobrowser с помощью python 3.4. Я использую HTML по умолчанию парсер:Очистить форму на некорректной веб-странице
self._browser = RoboBrowser(history=True, parser="html.parser")
Он отлично работает для правильных веб-страниц, но теперь я должен разобрать неправильно написанную страницу. Вот HTML фрагмент:
<form method="post" action="decide.php?act=submit_advance">
<table class="td_advanced">
<tr class="td_advance">
<td colspan="4" class="td_advance"></strong><br></td>
<td colspan="3" class="td_left">Case sensitive:<br><br></td>
<td><input type="checkbox" name="case_sensitive" /><br><br></td>
[...]
</form>
Закрытие strong
тег неверен. Эта ошибка не позволяет считывателю прочитать все входы, следующие за этим неправильным тегом:
form = self._browser.get_form()
print(form)
>>> <RoboForm>
Любые предложения?
Если это ошибка в robobrowser, вы можете отправить вопрос на GitHub. https://github.com/jmcarp/robobrowser –
Я думаю, что beautifulsoup должен обрабатывать суп с тегами, так что это будет возможность рассмотреть. –