Я пытался индексировать RSS-страницы на Solr, используя «feed» в качестве синтаксического анализатора (и не tika). Теоретически для каждого элемента RSS один документ должен быть создан в Solr. На самом деле, как только индексирование завершено успешно, в задании очистки удаляются все элементы RSS.Apache Nutch не индексирует rss-канал правильно
Мое предположение заключается в том, что не найден URL-адрес элемента RSS в crawlDB, и поэтому он удаляет их из Solr во время чистки. Может ли это быть правильно?
EDIT: Я заметил, что все записи имеют одинаковую «подпись», потому что выборщик так решил , Поэтому деблокировка обозначает их как дубликаты, а очиститель очищает их.
Я пытаюсь изменить это, но я не понимаю, почему он был настроен таким образом.
Спасибо, я открою проблему с jira и выберу StormCrawler тоже – rodi
Нет проблем. Не стесняйтесь отмечать мой ответ как полезный и/или решить вашу проблему –