Я хотел бы иметь возможность анализировать XML, который не обязательно хорошо сформирован. Я бы искал нечеткий, а не строгий синтаксический анализатор, способный, например, восстанавливаться от сильно вложенных тегов. Я мог бы написать свое, но сначала стоит спросить.Отказоустойчивый анализ XML в Scala
Update:
То, что я пытаюсь сделать, это извлечение ссылок и другой информации из HTML. В случае хорошо сформированного XML я могу использовать XML-интерфейс Scala. В случае плохо сформированного XML было бы неплохо каким-то образом преобразовать его в правильный XML (каким-то образом) и обработать его таким же образом, иначе мне пришлось бы иметь два совершенно разных набора функций для работы с документами.
Очевидно потому, что вход не хорошо сформирован, и я пытаюсь создать хорошо сформированное дерево, там должен быть некоторыми эвристическими участвуют (например, когда вы видите <parent><child></parent>
вы закрыть <child>
первые и когда вы то вы проигнорируете его). Но, конечно, это не правильная грамматика, и поэтому нет правильного способа сделать это.
Правда, самое близкое совпадение для моей проблемы - это вид выхода, который это дает. У меня есть представление о том, какие правила я буду использовать для создания дерева XML (я надеялся использовать XML API для запросов), но, конечно, это не будет отдаленно «правильным». Я могу просто сделать это более прагматичным способом. – Joe