2010-01-31 3 views
2

Я работаю над веб-скребком, который будет собирать данные с разных сайтов. Я начал использовать встроенные функции DOM в PHP, но после того, как вы столкнулись с несколькими проблемами (особенно в отношении неправильной разметки и кодировки символов), я решил отказаться от PHP. Я думал о стороне сервера Javascript, но открыт для других предложений. Если я использую Javascript, какой интерпретатор должен использовать?Лучший инструмент для манипуляций с DOM?

ответ

1

Существует отличный модуль BeautifulSoup для Python, который может обрабатывать поврежденную разметку в большинстве случаев. Он также позволяет использовать перехватчики для предварительной обработки HTML, если страница настолько искажена, что ее встроенная эвристика не работает. Я использовал BeautifulSoup для написания десятков парсеров.

Существует также модуль html5lib, который работает быстрее, а также может анализировать недействительный HTML.

Оба модуля имеют порты Ruby.

Смежные вопросы