У меня есть сервер, на котором работает Nutch, который передает Solr. Вход Nutch - это XML-файл rss-ленты, и, по-видимому, он использует правильный фид плагина для его анализа.Nutch + Solr; SolrDeleteDuplicates удаляет все, кроме одного индекса
При запуске базового обхода он сканирует и идентифицирует различные ссылки в xml правильно и индексирует правильное количество документов. Однако SolrDeleteDuplicates, кажется, удаляет все, кроме одного - тот, который не удаляется, кажется случайным.
Indexing 21 documents
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
SolrDeleteDuplicates: deleting 20 duplicates
Любые идеи?