Я хочу очистить некоторую информацию с футбольной (футбольной) веб-страницы, используя простые python regexp's. Проблема в том, что игроки, такие как первый парень, ÄÄRITALO, выходят как & # 196; & # 196; RITALO!
То есть, html использует экранированную разметку для специальных символов, например & # 196;Получение международных символов с веб-страницы?
Есть ли простой способ чтения html в правильную строку python? Если бы это был XML/XHTML, это было бы легко, синтаксический анализатор сделал бы это.