2014-08-12 4 views
-1

Я мог бы спросить что-то глупое, но я хочу узнать некоторые веб-соскабливания. Я уже знаю, как использовать perl, поэтому я бы предпочел сделать это с помощью этого языка. Я знаю, что на CPAN есть много модулей, я пытался их прочитать, но я ничего не понимаю. Я не нашел ничего, что объясняло бы с нуля, что означает этот процесс. Я мог бы использовать некоторую помощь с некоторыми ссылками или некоторыми материалами для изучения небольшого веб-соскабливания.Веб-скребок с использованием perl

Спасибо!

+2

Подождите, что? Вы хотите узнать о веб-соскабливании, но вы не знаете, что это такое? Откуда вы знаете, что хотите это узнать? –

ответ

2

На довольно базовом уровне «веб-скребок» просто загружает веб-страницу и анализирует ее, чтобы извлечь нужную вам информацию. На начальном уровне требуемый модуль - LWP, который позволяет получать контент, а затем «что-то», чтобы извлечь нужную информацию. HTML::Parser или HTML::TableExtract например. Нет ничего, что можно сказать, что вы не можете вручную использовать собственный шаблон, но ... ну, обработка HTML не является новой проблемой, так зачем же изобретать колесо?

На более продвинутом уровне, возможно, вы захотите взаимодействовать с сайтом - войдите в него, возможно, или «щелкните по» некоторым меню. Для этого мне нравится WWW::Mechanize.

Боюсь, я не могу дать вам больше, не понимая проблемы, которые вы пытаетесь решить. Вы используете базовую «выборку веб-страницы и анализ» своего уровня?

(Вы можете найти подробное описание и примеры вышеуказанных модулей на CPAN. На странице LWP есть некоторые примеры, которые должны получить вы начали.)

1

Для начала вы можете посмотреть на WWW :: Mechanize и HTML :: TreeBuilder :: XPath-модули.

2

Я написал довольно основной учебник по WWW :: Механизируйте here .еЙ успешно поползли страницы несколько раз так, пожалуйста, дайте мне знать, если у вас есть случай, вы хотели бы попробовать и нужна помощь :)

1

На мой взгляд, лучший модуль для веб-соскабливания - Web::Scraper. Его язык может быть довольно кратким время от времени, но есть много examples.

Смежные вопросы