2012-03-13 2 views
0

Я реализую функцию поиска RSS из поисковой системы, используя Java и SAX. Однако некоторые результаты поиска не являются корректными, т. Е. Тело тега <title> некоторых записей содержит символ & вместо &amp; и т. Д. (Например, что-то вроде, скажем, Starsky & Hutch).java sax parse не хорошо сформирован xml

При разборе RSS я получаю org.apache.harmony.xml.ExpatParser&ParseException, в результате чего весь поиск прерывает и ничего не возвращает.

Я хочу, чтобы мой синтаксический анализатор работал над этими ошибками, как это делает RSS-ридер Firefox. Каковы возможности исправить эту проблему и проанализировать RSS-канал?

+0

Как насчет анализатора RSS-каналов? http://stackoverflow.com/search?q=%5Bjava%5D+rss+parser –

+0

Если это не правильно, то это не RSS-канал. Педантичная точка, но важная. – skaffman

+0

@ skaffman Я согласен с тобой. Но это не оставляет мне выбора, кроме как отказаться от этого корма. Жаль, хотя это их вина – Gabriel

ответ

1

Реализации SAX обычно предназначены для обнаружения ошибок и исключения исключений, и нет стандартного способа обойти это. Самое разумное, о чем я могу подумать, - попытаться исправить ошибки, такие как stray & символов, перед потоковой передачей в SAX.

Смежные вопросы