Как выделить термин запроса в поле, содержащем html в Solr

У меня есть поле тела, которое может содержать html-текст из богатого текстового редактора. Я хочу иметь возможность возвращать от него выделенные фрагменты, но с удаленным html.Как выделить термин запроса в поле, содержащем html в Solr

Возьмите текст ниже индексируется:

some text here with words and other text

Если вы ищете «словами», вы можете получить следующие выделения фрагмента (в зависимости от длины фрагмента и т.д.):

class="something">some text here with words and other text или class="something">some text here with words and other text

Где HTML разделен, что вызовет проблемы с обработкой на интерфейсе. Я хочу вычеркнуть html до того, как будет применена подсветка. Я пробовал разные компоненты выделения, но не видел никаких свойств, которые делают трюк.

Нужно ли убирать HTML перед индексированием? Или есть еще одна техника для этого?

В настоящее время я использую HTMLStripCharFilterFactory, чтобы вырезать HTML во время индекса, но компонент выделения, используя базовые хранимые данные, которые являются исходным html.

источник

2015-02-04 Ian Routledge

Для тех, кто попадается с той же проблемой ... Я в конечном итоге зачистки HTML, прежде чем он приходит в Solr –

У меня также есть та же проблема, и пришли к выводу, что единственный способ заключается в использовании двух полей, например:

content_html: оригинальный HTML, использует HtmlStripCharFilterFactory так просто содержание HTML будет индексироваться/лексемы
content_stripped: содержание только текст, будет использоваться для выделенных фрагментов

в C# я бы использовать HtmlAgilityPack, например, чтобы загрузить HTML в документ затем вызвать .text на корневом узле.

Оба поля должны быть сохранены так, чтобы вы могли использовать текстовое поле для фрагментов и поле html для того, чтобы выделить все поле.

Я рассмотрел как Solr, так и ElasticSearch, и из того, что я нашел, нет встроенного способа, потому что выделение выполняется на все, что хранится.

источник

2015-08-12 01:29:34 pholly

Спасибо за добавление ответ - пометили его как таковой для тех, кто сталкивается с этим. –

pholly и @IanRoutledge - можете ли вы подтвердить, что даже анализатор, который пользователи «char_filter»: ["html_strip"] 'wouldn ** not ** help здесь, потому что анализаторы влияют только на то, как контент анализируется (обозначается и т. Д.)) ** (и/или как запросы ** анализируются **); анализаторы ** не ** влияют на то, как это ** хранится **, а так как ** сохраненное ** значение имеет значение для фрагментов подсветки, анализаторы не могут исправить эту проблему с выделенными фрагментами? –

Как выделить термин запроса в поле, содержащем html в Solr

ответ

Смежные вопросы