2015-05-19 3 views
0

Как использовать Solr для идентификации языков документов, полученных при сканировании с помощью гайки?Обнаружение языка в Solr для документов Nutch

Я установил Nutch 1.9 и Solr 4.8.1. Я добавил новое ядро, названное "core-test" , на solr с помощью Core Admin на странице администрирования Solr, и я выполнил шаги в Solr wiki для определения языка при индексировании документов.

Я изменил schema.xml в ядро-тест/CONF путем добавления поля

<field name="language_s" type="string" stored="true" indexed="true"/> 

Затем я использовал Nutch для сканирования набор веб-страниц с помощью

crawl seed.txt Test http://localhost:8983/solr/core-test 2 

Nutch работает, но язык документов не идентифицирован, т.е. я не получаю поле language_s, когда я делаю запрос в http://localhost:8983/solr/#/core-test/query с q, установленным на ":".

ответ

2

Необходимо включить определение языка Nutch. Скопируйте XML-тег ниже Nutch_HOME/conf/nutch-site.xml:

<property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|language-identifier</value> </property>

выше тег позволяет плагин языка обнаружения в комплекте с Nutch. Как описано в Nutch's wiki, плагин добавит поле с именем «lang», которое содержит код языка ваших документов.

+0

Это работает! Спасибо! – eljane

+0

если он работает, пожалуйста, примите мой ответ. – ameertawfik

Смежные вопросы