Я реализую функцию поиска RSS из поисковой системы, используя Java и SAX. Однако некоторые результаты поиска не являются корректными, т. Е. Тело тега <title>
некоторых записей содержит символ &
вместо &
и т. Д. (Например, что-то вроде, скажем, Starsky & Hutch
).java sax parse не хорошо сформирован xml
При разборе RSS я получаю org.apache.harmony.xml.ExpatParser&ParseException
, в результате чего весь поиск прерывает и ничего не возвращает.
Я хочу, чтобы мой синтаксический анализатор работал над этими ошибками, как это делает RSS-ридер Firefox. Каковы возможности исправить эту проблему и проанализировать RSS-канал?
Как насчет анализатора RSS-каналов? http://stackoverflow.com/search?q=%5Bjava%5D+rss+parser –
Если это не правильно, то это не RSS-канал. Педантичная точка, но важная. – skaffman
@ skaffman Я согласен с тобой. Но это не оставляет мне выбора, кроме как отказаться от этого корма. Жаль, хотя это их вина – Gabriel