Я работаю над проектом, который импортирует технические документы в систему слежения. Небольшое количество публикаций содержит встроенные HTML
. Это нормально, и мы выделяем HTML
, который обычно используется для добавления форматирования, такого как полужирный или курсив, в основной текст.Strip Math ML (конвертировать в обычный текст)
Теперь мы получаем документы, содержащие MathML
. Существуют ли какие-либо библиотеки (или подходы), которые будут разделять разметку и давать разумный текстовый эквивалент? Я понимаю, что MathML
допускает графические представления, но даже те, которые имеют текстовые эквиваленты.
Вы просто хотите, чтобы сдуть разметку, или вы вместо этого хотите, чтобы преобразовать разметку из MathML к чему-то еще, скажем, LaTeX? Ведь Mathml уже является текстовым форматом. –
Я понимаю, что если я хочу просто сдуть его, я, скорее всего, сделаю это с помощью какой-либо обработки регулярных выражений. Мне интересно, как конвертировать/разбирать/обрабатывать его, чтобы получить чистое текстовое представление или что-то очень близкое. В идеале, в конце концов, я заканчиваю текстовым представлением, таким как '(a + b + c)/(2 * 5)' (пример). – andleer
Вы достигли какого-либо прогресса в этом вопросе? –