2011-06-01 3 views
2

Я индексирую документы Solr, которые были очищены от сети. Документы содержат объекты HTML (например, £ или £). В основном документы содержат центральные европейские символы. Есть ли какой-нибудь шарфик для этой задачи? Я знаю solr.MappingCharFilterFactory, но использование этого означало бы, что я должен сам определять отображения. Я был бы более счастлив с общим решением, поддерживаемым сообществом. Спасибо за вашу помощь!Solr индексирование объектов HTML

+0

fifigyuri, вы спросили: «Есть ли какой-нибудь шарф для этой задачи?» Позвольте мне сделать это прямо: хотите ли вы преобразовать акцентированные символы в неактрированные перед индексированием документа (то есть конвертировать «állat» в «allat»)? И вы не хотите собирать и поддерживать txt-файл отображения char? – bpgergo

+0

@bpgergo, я занялся символами áóüőťďľšč ... для этих MappingCharFilter все в порядке. Я хотел бы иметь сопоставления для HTML. Это означает, что ü или ü будет переведен на ü. Но, вероятно, самым простым для этого было бы просто расширить мои сопоставления. Хотелось узнать, не были ли эти случаи уже решены для веб-специфических текстов/символов в Solr. Если вы знаете какое-либо такое решение, готовое, пожалуйста, поделитесь. Благодаря! – fifigyuri

+0

Я вижу. К сожалению, я не знаю такого готового картографирования. – bpgergo

ответ

1

Существует solr.HTMLStripCharFilterFactory, который преобразует HTML объектов, но также и полосы HTML тегов.

Смежные вопросы