2013-03-04 2 views
0

В настоящее время я использую Solr-Cell, чтобы захватить содержимое нескольких html-страниц и проиндексировать их. Проблема в том, что у меня есть меню в заголовке, которое отображается на всех страницах. Это меню и все его элементы отображаются в результатах поиска. Я не хочу, чтобы это индексировалось.Solr: Исключение определенных тегов HTML или включение только определенных тегов в индексы

Как бы вы это сделали?

Можно ли исключить определенный DIV (с именем класса или id)?

ответ

0

Фактически, если вы выполните тест, вы увидите, что способ, которым Tika используется в Solr, он удаляет большую часть HTML, включая атрибуты div и классов и ids.

Таким образом, вы не сможете получить необходимую гранулярность и, возможно, вам нужно использовать что-то вроде RegexReplaceProcessorFactory UpdateRequestProcessor для удаления нежелательных частей путем сопоставления с чистым текстом.

Если вы вызвали Tika непосредственно из своего кода, у вас есть больше контроля над ним и вы можете установить IdentityHtmlMapper, чтобы не выполнять фильтрацию HTML.

+0

Еще одно предостережение в этой проблеме заключается в том, что я новичок в SOLR. Я буду исследовать RegexReplaceProcessorFactory. В настоящее время я не уверен в том, чтобы отделить TIKA от SOLR. Мой код завершен на 95%, и мне остается только удалить пункты меню из результатов. В противном случае я бы потратил время. – mangesh

Смежные вопросы