Я пытаюсь использовать гайку для сканирования твиттера и связанных данных Nutch-0.9.Сканирование щебетать, связанное с помощью гайки
- Однако, когда я пытаюсь ползать щебет регулярное выражение-фильтр не кажется, работает, мой файл регулярное выражение-фильтр имеет +^https: // (. [А-z0-9] *) twitter.com/a и что я хочу сделать, это сканировать только те URL-адреса, которые следуют приведенному выше шаблону. Я заканчиваю URL-адресами, такими как https://twitter.com/document.
- Что касается связанного раздела, он всегда отображает таймаут, когда я пытаюсь его просканировать, robots.txt на linkedin говорит, что вам нужно отправить почту, чтобы ваш сканер был включен в белый список, но они никогда не отвечают.
Цените свою помощь!