2014-12-04 8 views
-1

Он парень я хочу ползать HTTPS сайтов с помощью Nutch 1,9 с java7HTTPS ползать вопрос с Nutch

в seed.txt

https://site.com 

в регулярных выражениях urlfilter.txt

+^https://([a-z0-9]*\.)*site.com/ 

но при запуске процесса crawlig с использованием bin/crawl ... у меня есть javax.net.ssl.SSLProtocolException: сообщение подтверждения: unrecognized_name

ответ

2

У меня есть решение для обхода сайта с сертификатом по умолчанию, и я надеюсь, что это поможет другим людям, которые столкнутся с этой проблемой.

Некоторые сообщения в этом форуме упоминаются о добавлении аргумента -Djsse.enableSNIExtension=false , но где это положить? я редактировал nucth файл с помощью нано и добавил этот аргумент в NUTCH_OPTS в Nutch 1.9 он находится на линии 195, который теперь

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false) 

после того, что ползание получил успех, не нарушая

Смежные вопросы