Предположим, кроме простых текстовых терминов я хочу получить некоторые сложные данные из текста. Например, текст может содержать описания графиков в некотором формате. После этого я хочу делать запросы, которые содержат некоторые условия на этих графиках (для примера я хочу найти все документы с планарными графами или что-то вроде этого). Похоже, что стандартного индекса Solr недостаточно для такой задачи, потому что в конце он (как я понимаю) обрабатывает документ в терминах токенов, которые являются только строками, но мне нужен дополнительный индекс, который имеет более подходящий формат. Итак, вопрос: могу ли я каким-то образом настроить индексирование и извлечение данных из индекса в Solr? Я прочитал много документации, но не смог найти ответ.Пользовательский индекс в Apache Solr
ответ
Да. Вы можете определить каждое поле в файле schema.xml. Внутри этого файла вы можете определить, какой тип данных хранится, как токенизировать документ и как манипулировать токенированными данными. Чтобы удовлетворить ваши потребности, вам, вероятно, потребуется написать собственный токенизатор и, возможно, настраиваемые фильтры.
Ваша лучшая отправная точка - это посмотреть определение поля text_general в схеме. Он имеет различные токенизаторы, фильтры, которые применяются к тексту и помогают вам индексировать. Вы можете определить разные токены как при индексировании, так и в процессе запроса.
Вам необходимо знать, что маркеры применяются к тексту, и фильтры применяются к каждому токену. У вас есть дескриптор графиков в некотором формате. Можете ли вы подробнее рассказать о типе формата, чтобы мы могли думать о лучших способах? Существует так много существующих токенов и фильтров. В зависимости от формата вы можете использовать существующие или писать свои собственные.
- 1. Что такое индекс в apache solr?
- 2. Как Apache solr Индекс разных файлов
- 3. Языки в Apache Solr
- 4. Пользовательский полнотекстовый индекс, хранящийся в Cassandra
- 5. Solr пользовательский интерфейс
- 6. Solr-репликация Solr-индекс совместим
- 7. Индекс по версии вместо узла с Apache Solr в Drupal
- 8. Периодический индекс для Solr
- 9. Индекс большой файл pdf в SOLR
- 10. Сайт, реализующий Apache Solr?
- 11. Alfresco Solr Пользовательский поиск
- 12. Интеграция JSP с Apache SOLR
- 13. Apache solr vs Apache Lucy
- 14. Apache и Apache Solr вместе
- 15. Apache Solr 4 - после 1-го фиксации индекс не растет
- 16. Можно ли сделать частичный индекс на Apache Solr 4?
- 17. Solr - автоматически обновляется индекс
- 18. Apache Solr: Как определить пользовательский тип поля JSON?
- 19. Индекс плюс символ в SOLR
- 20. Apache Solr Удалить Query 3.6.2
- 21. Solr: существующий индекс
- 22. Apache solr startup script
- 23. solr в приложении javafx вместо apache lucene
- 24. Apache nutch не индексирует все документы в apache solr
- 25. Настройка apache solr online
- 26. Оптимизация Apache SOLR
- 27. Apache Solr Commit
- 28. Apache SOLR порядок сортировки
- 29. Apache Solr post.jar issue
- 30. Apache Solr - данные индекса
Пусть формат графика будет просто простым списком смежности: например [2] [1,3] [2] описывает график, в котором первая вершина связана со вторым; от второго до первого и третьего; третий-второй. –
Итак, я вижу, что вы можете просто сохранить весь формат в строке, не используя никакой токенизации? И как вы планируете запрашивать этот график, пытаетесь ли вы искать целое значение формата отдельной ячейки. Эти вопросы определяют ваш тип поля. – Ramzy