2013-11-15 2 views
0

У меня есть сервер, на котором работает Nutch, который передает Solr. Вход Nutch - это XML-файл rss-ленты, и, по-видимому, он использует правильный фид плагина для его анализа.Nutch + Solr; SolrDeleteDuplicates удаляет все, кроме одного индекса

При запуске базового обхода он сканирует и идентифицирует различные ссылки в xml правильно и индексирует правильное количество документов. Однако SolrDeleteDuplicates, кажется, удаляет все, кроме одного - тот, который не удаляется, кажется случайным.

Indexing 21 documents 
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22 
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53 
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr 
SolrDeleteDuplicates: deleting 20 duplicates 

Любые идеи?

ответ

0

Скорее всего, вы неправильно настроили настройку дедупликации, чтобы посмотреть на поле, которое идентично для всех записей. Итак, Солр думает, что они все одинаковые записи.

Если этого не происходит, обновите свой вопрос с помощью конфигурации, которую вы используете для компонента dedupe.

Смежные вопросы