Solr индексирование объектов HTML

Я индексирую документы Solr, которые были очищены от сети. Документы содержат объекты HTML (например, £ или £). В основном документы содержат центральные европейские символы. Есть ли какой-нибудь шарфик для этой задачи? Я знаю solr.MappingCharFilterFactory, но использование этого означало бы, что я должен сам определять отображения. Я был бы более счастлив с общим решением, поддерживаемым сообществом. Спасибо за вашу помощь!Solr индексирование объектов HTML

источник

2011-06-01 fifigyuri

fifigyuri, вы спросили: «Есть ли какой-нибудь шарф для этой задачи?» Позвольте мне сделать это прямо: хотите ли вы преобразовать акцентированные символы в неактрированные перед индексированием документа (то есть конвертировать «állat» в «allat»)? И вы не хотите собирать и поддерживать txt-файл отображения char? – bpgergo

@bpgergo, я занялся символами áóüőťďľšč ... для этих MappingCharFilter все в порядке. Я хотел бы иметь сопоставления для HTML. Это означает, что ü или ü будет переведен на ü. Но, вероятно, самым простым для этого было бы просто расширить мои сопоставления. Хотелось узнать, не были ли эти случаи уже решены для веб-специфических текстов/символов в Solr. Если вы знаете какое-либо такое решение, готовое, пожалуйста, поделитесь. Благодаря! – fifigyuri

Я вижу. К сожалению, я не знаю такого готового картографирования. – bpgergo

Существует solr.HTMLStripCharFilterFactory, который преобразует HTML объектов, но также и полосы HTML тегов.

источник

2013-09-05 11:24:30

Solr индексирование объектов HTML

ответ

Смежные вопросы