Я недавно начал работать над nutch, и я пытаюсь понять, как это работает. Насколько я знаю, Nutch в основном используется для сканирования в Интернете, а solr/Lucene используется для индексации и поиска. Но когда я читаю документацию по ореху, он говорит, что nutch также инвертирует индексирование. Использует ли Lucene внутренне для индексирования или имеет ли какую-то другую библиотеку для индексирования? Если для индексирования используется solr/lucene, то зачем нужно настраивать solr с помощью гайки, как говорится в учебнике по орехам?nutch vs solr indexing
Выполняется ли индексирование по умолчанию. Я имею в виду, что я запускаю эту команду, чтобы начать сканирование. Здесь индексирование происходит?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Или индексирование происходит только в этом случае. (В соответствии с учебником: Если у вас есть ядро Solr уже установило и хотите индексировать к ней, вам необходимо добавить параметр -solr к вашему ползанию команды, например)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Спасибо за ответ. Просто перефразируя его один раз, nutch просто сканирует и хранит данные в db, и он не делает индексацию сам по себе. Solr необходимо индексировать. Я прав? У меня возникло еще одно сомнение относительно добавления новых полей для индексации. Я написал образец плагина для добавления нового поля, следуя учебным пособиям на веб-сайте apache nutch.Будет ли этот плагин автоматически загружаться, когда я начну сканирование, или плагин нужно запустить отдельно. Я последовал всем шагам и только начал ползать. Я не видел никаких ошибок, но я не видел никаких вставленных полей. Я проверил в crawldb, а также в сегментах. – CRS
@CRS Вы правы с вашим перефразированием, правильно! Что касается плагина, который я не знаю, я никогда не работал с плагинами nutch, но, возможно, новый вопрос с некоторыми подробностями (и кодом) помог бы. – javanna
Еще раз спасибо. Я сделаю то же самое. Один последний связанный вопрос. Когда Solr используется для индексации данных, просканированных гайкой, все индексы сохраняются в db ореха или в db Solr? Если Solr, то знаете ли вы, какой каталог он будет сохранен. – CRS