2014-04-30 2 views

ответ

4

заказ и построить Nutch:

1.Get последнего исходного кода из SVN с помощью терминала.

Для Nutch 1.x (ie.trunk) запустить следующим образом:
СВН совместно https://svn.apache.org/repos/asf/nutch/trunk

2.Add «http.agent.name» и «http.robots.agents» с значениями в наши правила «конф /nutch-site.xml».

Здесь вы должны переименовать файл nutch-site.xml.template в файл nutch-site.xml и внести соответствующие изменения.

См. Conf/nutch-default.xml для описания этих свойств.

3. Также добавьте «plugin.folders» и установите его в {PATH_TO_NUTCH_CHECKOUT}/build/plugins. например. Если Nutch присутствует в "/home/Desktop/2.x",

установить свойство:

<property> 
    <name>plugin.folders</name> 
    <value>/home/Desktop/2.x/build/plugins</value> 
</property> 

Существует нет папки в настоящее время присутствует нет/сборки/плагинов. Но когда вы запустите команду «ant eclipse», вы получите «/ build/plugins» в вашем {PATH_TO_NUTCH_CHECKOUT}.

Вот почему это указано как заданный абсолютный путь как {PATH_TO_NUTCH_CHECKOUT}/build/plugins.

Не указывайте здесь относительный путь, как обычно.

4.Run эта команда:
муравей затмение

5.Load проект в Eclipse,

5.1.In Eclipse, нажмите на кнопку «Файл» -> «Импорт ...»

5.2.Выберите «Существующие проекты в рабочее пространство»

5.3. В следующем окне установите корневой каталог в том месте, где вы взяли чек nutch 2.x (o r trunk). Нажмите «Готово».

5.4. Теперь вы увидите новый проект с именем 2.x (или багажник), который будет добавлен в рабочее пространство. Подождите, пока Eclipse обновит свой кеш SVN и построит рабочее пространство. Вы можете увидеть статус в правом нижнем углу Eclipse.

5.5.In Package Explorer, щелкните правой кнопкой мыши на проекте «2.x» (или ствола), выберите «Build Path» -> «Настройка» Путь сборки

5.6.In ордена «и экспорт» , прокрутите вниз и выберите «2.x/conf» (или trunk/conf). Нажмите кнопку «Вверх».К сожалению, Eclipse снова построит рабочее пространство, но на этот раз это не займет много времени.

6.Need для загрузки следующих файлов .jar:

http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1

Настройка выше баночка файла в затмении.

ошибка 7.One вы получите для «ElasticsearchException». Измените его на «ElasticSearchException» (S Capital)

8.Now вы готовы запустить Nutch кода в Eclipse:

8.1.Lets начать с операцией нагнетающей.

8.2.Нажмите на проект в «Проводнике пакетов» -> выберите «Запустить как» -> выберите «Запустить конфигурации».

8.3.Создание новой конфигурации. Назовите его как «впрыск».

Для 1.x т.е. ствола: Установите главный класс, как: org.apache.nutch.crawl.Injector

Для 2.x: Установите главный класс как: org.apache.nutch.crawl.InjectorJob

8.4. На вкладке arguments для аргументов программы укажите путь к каталогу ввода, в котором есть семенные URL-адреса.

8.5. Задайте аргументы VM для «-Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log»

8.6. Нажмите «Применить» и нажмите «Запустить».

8.7. Если все было настроено идеально, вы должны увидеть, как на консоли запускается операция ввода.

класс в Nutch 1.x (ietrunk)

инъекционные: - org.apache.nutch.crawl.Injector

генерируют: - org.apache.nutch.crawl.Generator

выборки: - org.apache.nutch.fetcher.Fetcher

синтаксического анализа: - org.apache.nutch.parse.ParseSegment

обн atedb: - org.apache.nutch.crawl.CrawlDb

класса в Nutch 2.x

инъекционные: - org.apache.nutch.crawl.InjectorJob

генерации: - org.apache .nutch.crawl.GeneratorJob

выборки: - org.apache.nutch.fetcher.FetcherJob

синтаксического анализа: - org.apache.nutch.parse.ParserJob

updatedb: - org.apache.nutch.crawl.DbUpdaterJob

НАДЕЖДА ЭТО ПОМОЩЬ !!!!

+0

Красивая копия/pase из https://wiki.apache.org/nutch/RunNutchInEclipse – HMS

Смежные вопросы