У меня есть следующий текст:Tokenising/фильтрация текста с разметкой
Lurasidone is a dopamine D<sub>2</sub>
Я хотел бы разметить это такое, что я получаю следующие символы:
Lurasidone
допамина
D2
Как достичь этого, используя токенизатор или фильтр? Я пытался использовать HTML фильтр однако D<sub>2</sub>
разбивается на лексемы как:
D
, тогда как мне нужно, чтобы это токенизировать как:
D2
Можете ли вы показать, как вы использовали фильтр символов 'html_strip'? – Val