2012-02-15 5 views
0

После один день кишит Nutch (1.4) ... наконец я получил плохой плохой ниже исключением:IOExeption при сканировании с Nutch

. 
. 
. 

-finishing thread FetcherThread, activeThreads=0 
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0 
-activeThreads=0 
Fetcher: java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204) 
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213) 
. 
. 

.

я 20 новостей сайта и входной аргумент Nutch является: глубина 3 и TopN -1 я иметь достаточно места в корневом каталоге моего Linux и около 4 Гб оперативной памяти , как я могу решить эту проблему? спасибо.

ответ

0

Я думаю, что вы могли бы иметь эту проблему: http://wiki.apache.org/nutch/NutchGotchas

Ответ при условии говорится:

Ответ мы находим имя ситуация такова, что вы, скорее всего дискового пространства в/TMP. Рассмотрите возможность использования другого местоположения или, возможно, другого раздела для hadoop.tmp.dir (который может быть установлен в файле nutch-site.xml) с большим количеством места для больших временных файлов или с использованием кластера Hadoop.

+0

Я указал большое пространство на мой/tmp, но ничего не изменилось и произошло то же самое исключение. Есть ли какая-то неправильная конфигурация? – hadi

+0

Я не уверен, что еще может быть неправильно, но можете ли вы убедиться, что у вас еще не закончилось пространство? Посмотрите, сколько данных у вас есть в папке tmp и убедитесь, что у вас нет больше указанного вами пространства. – Kiril

+0

да, я указал около 100 ГБ пространства в/из linux – hadi

Смежные вопросы