Я индексирую документы Solr, которые были очищены от сети. Документы содержат объекты HTML (например, £
или £
). В основном документы содержат центральные европейские символы. Есть ли какой-нибудь шарфик для этой задачи? Я знаю solr.MappingCharFilterFactory, но использование этого означало бы, что я должен сам определять отображения. Я был бы более счастлив с общим решением, поддерживаемым сообществом. Спасибо за вашу помощь!Solr индексирование объектов HTML
2
A
ответ
1
Существует solr.HTMLStripCharFilterFactory
, который преобразует HTML
объектов, но также и полосы HTML
тегов.
Смежные вопросы
- 1. Solr Индексирование нескольких объектов json
- 2. индексирование объектов класса в solr
- 3. Индексирование HTML с помощью solr
- 4. HTML-индексирование с помощью solr
- 5. Индексирование Solr -
- 6. Индексирование HTML-файлов с использованием SOLR
- 7. Индексирование различных типов объектов/объектов с Solr Lucene
- 8. SOLR индексирование и поиск?
- 9. Как автоматизировать индексирование solr?
- 10. Solr индексирование, поиск stemming
- 11. Solr пятно PDF индексирование
- 12. SOLR 4,4 индексирование постепенно
- 13. Индексирование wikipedia с solr
- 14. Solr индексирование многозначных полей
- 15. Solr: индексирование fb2 файлов
- 16. Автоматическое индексирование в Solr
- 17. Solr Индексирование времени документов
- 18. Solr Индексирование дубликатов документов
- 19. Solr BlockJoin Индексирование для Solr 4.10.1
- 20. Lucene/Solr - Индексирование публикаций/текстов
- 21. Индексирование файлов в alfresco solr
- 22. Apache Solr - индексирование файлов PDF
- 23. SOLR - индексирование базы данных, конфигурация
- 24. Индексирование числового диапазона в Solr
- 25. Индексирование wikipedia dump with solr
- 26. Индексирование пустых значений в Solr
- 27. индексирование документов с помощью Solr
- 28. Индексирование Solr с базовой аутентификацией
- 29. Медленное индексирование solr с PHP
- 30. индексирование MySQL в Apache Solr
fifigyuri, вы спросили: «Есть ли какой-нибудь шарф для этой задачи?» Позвольте мне сделать это прямо: хотите ли вы преобразовать акцентированные символы в неактрированные перед индексированием документа (то есть конвертировать «állat» в «allat»)? И вы не хотите собирать и поддерживать txt-файл отображения char? – bpgergo
@bpgergo, я занялся символами áóüőťďľšč ... для этих MappingCharFilter все в порядке. Я хотел бы иметь сопоставления для HTML. Это означает, что ü или ü будет переведен на ü. Но, вероятно, самым простым для этого было бы просто расширить мои сопоставления. Хотелось узнать, не были ли эти случаи уже решены для веб-специфических текстов/символов в Solr. Если вы знаете какое-либо такое решение, готовое, пожалуйста, поделитесь. Благодаря! – fifigyuri
Я вижу. К сожалению, я не знаю такого готового картографирования. – bpgergo