Apache NUTCH, соответствующее обход

Я просматриваю сайты, используя Apache NUTCH 2.2.1, который предоставляет мне контент для индексации на SOLR. Когда NUTCH извлекает контент, есть контекстуальная информация, такая как «связаться с нами», «юридическое уведомление» или какая-либо другая нерелевантная информация (обычно поступающая из верхнего меню, левого меню или из нижнего колонтитула страницы), которую мне не нужно индексировать.Apache NUTCH, соответствующее обход

Одним из решений было бы автоматически выбрать наиболее значимую часть содержимого для индексации, которое может быть выполнено с помощью автоматического сумматора. Существует плагин «summary-basic», он используется для этой цели? Если да, то как он настроен? Другие решения также приветствуются.

источник

2014-11-19 Ivo Kurtanovic

В файле regex-urlfilter.txt вы можете указать список URL-адресов, которые вы хотите игнорировать. Вы можете указать http-ссылку для «связаться с нами» (как правило, весь заголовок, нижний колонтитул, который вы не хотите сканировать) и т. Д. В этом списке регулярных выражений. При сканировании веб-файлов nutch игнорирует эти URL-адреса и будет получать только требуемый контент. Вы можете найти regex-urlfilter.txt под папкой apache-nutch-2.2.1/conf

источник

2015-05-28 20:50:55 BigData

Apache NUTCH, соответствующее обход

ответ

Смежные вопросы