2010-03-08 2 views
4

Мне нужно соскрести (с одобрением) веб-сайты, прежде чем я начну писать свой собственный . Каков наилучший инструмент/способ соскабливания веб-сайтов, который является быстрым (многопоточным) и простым в освоении?Каков наилучший метод или инструмент для очистки веб-сайтов?

+0

рискнули, что «лом» должен был быть «скрести» :-) – Pointy

+2

если с утверждением, я» m конечно он имел в виду лом ;-) – Anurag

ответ

0

Рассмотрите возможность использования TestPlan. Он имеет режим браузера без дисплея для быстрого считывания. Сценарий очень простой и быстрый, чтобы изучить основы.

0

TagSoup, SAX-совместимый синтаксический анализатор, написанный на Java, анализирует HTML так, как он встречается в дикой природе: бедный, скверный и жестокий, хотя и нередко далекий от короткого.

Подробности здесь: http://mercury.ccil.org/~cowan/XML/tagsoup/