Я просматриваю сайты, используя Apache NUTCH 2.2.1, который предоставляет мне контент для индексации на SOLR. Когда NUTCH извлекает контент, есть контекстуальная информация, такая как «связаться с нами», «юридическое уведомление» или какая-либо другая нерелевантная информация (обычно поступающая из верхнего меню, левого меню или из нижнего колонтитула страницы), которую мне не нужно индексировать.Apache NUTCH, соответствующее обход
Одним из решений было бы автоматически выбрать наиболее значимую часть содержимого для индексации, которое может быть выполнено с помощью автоматического сумматора. Существует плагин «summary-basic», он используется для этой цели? Если да, то как он настроен? Другие решения также приветствуются.