I'm currenlty сталкивается с проблемой с математическими уравнениями, содержащими символы '<'. Если я разбираю их с помощью lxml, строка обрезается.Parse '<' Символ с lxml
Есть ли способ сказать синтаксическому анализатору не удалять неизвестные теги (я думаю, это проблема), но сохранить их такими, какие они есть?
например
s="<div> This is a text with mathjax like $1<2$, let's see if this works till here $2>1$! </div>"
from lxml import html
tree=html.fragment_fromstring(s)
html.tostring(tree)
дает:
'<div> This is a text with mathjax like $11$! </div>'
Было бы хорошо, если '<' не получает избежал ничего обрезаны.
Я полностью осознаю, что это недопустимо xml. Но, к сожалению, я не могу заменить символы «<» правильным символом, экранированным html в источнике, потому что на самом деле, я пытаюсь проанализировать файл разметки, содержащий html-теги, и символ < является совершенно прекрасным символом здесь.
Спасибо!
Jakob
, поскольку строка не правильно убежали в вашем XML –
@ user2799617 Конечно это не так! В этом проблема и причина вопроса! – Jakob