2013-09-14 3 views
1

Я пытаюсь использовать гайку для сканирования твиттера и связанных данных Nutch-0.9.Сканирование щебетать, связанное с помощью гайки

  1. Однако, когда я пытаюсь ползать щебет регулярное выражение-фильтр не кажется, работает, мой файл регулярное выражение-фильтр имеет +^https: // (. [А-z0-9] *) twitter.com/a и что я хочу сделать, это сканировать только те URL-адреса, которые следуют приведенному выше шаблону. Я заканчиваю URL-адресами, такими как https://twitter.com/document.
  2. Что касается связанного раздела, он всегда отображает таймаут, когда я пытаюсь его просканировать, robots.txt на linkedin говорит, что вам нужно отправить почту, чтобы ваш сканер был включен в белый список, но они никогда не отвечают.

Цените свою помощь!

ответ

0

е вы хотите просканировать этот конкретные адреса вы должны включить следующую строку слишком

-. *

эта команда исключит все другие страницы! Также, если вы хотите сканировать твиттер или ссылку, вы можете использовать указанные сканеры, такие как twit4j или linkedin-j!

0

Как я знаю, Nutch не поддерживал сканирование данных Twitter и Linkedin. Для сканирования данных Titter вы должны использовать API Twitter, проверьте этот http://twitter4j.org/en/. Для обхода Связанных данных вы можете посмотреть на этом https://github.com/pondering/scrapy-linkedin.

Надеюсь, что это поможет

Смежные вопросы