2011-01-28 4 views
1

Я пытаюсь научиться анализировать HTML, но поскольку у меня нет большого опыта работы на Java или Android, это немного сложно. Я прочитал учебник по XML-анализу IBM XML и научился разбирать RSS-канал. Моя проблема: я хотел бы получить данные с сайта HTML. Я прочитал некоторую информацию об очистителе HTML, JSON и т. Д., Но я не могу найти хороший учебник, чтобы помочь мне. У вас есть какие-то учебники, которые могут быть полезны?HTML-анализ в Android

Спасибо.

ответ

0

ИМО Есть два простых способа разбора HTML:

  • Преобразовать HML в XML (XHTML), используя библиотеку (например, HTMLTidy), а затем использовать парсер
  • Использовать существующий HTML парсер (например, стандартный веб-браузер, как WebKit, ForeFox, и/или IE), а затем читать «DOM», который является более или менее API-дружеский представление анализируемой HTML

в качестве альтернативы, если вы хотите написать собственный синтаксический анализатор (что я сомневаюсь, что вы должны, для домашней работы: было бы долго и усложнять чтобы реализовать его правильно/полностью), см. specs for parsing HTML.

+0

Я сделал это CW, потому что Безразлично» t точно отвечает на вопрос, и поэтому кто-то может хотите отредактировать/исправить: например. этот ответ не является специфичным для Android и не является учебником. – ChrisW

+0

спасибо за ваш ответ! Так что есть способ конвертировать html в xml, а затем получить данные как rss? –

+0

@ kostas Я не знаю, и я думаю, вам лучше спросить об этом в качестве отдельного/нового вопроса. – ChrisW

Смежные вопросы