2015-03-29 3 views
0

У нас есть требование, в которое входят как структурированные, так и неструктурированные данные. Нам нужно проиндексировать их оба, а затем включить функцию поиска на нем. Мы используем SolrCloud на платформе Hadoop. Для структурированных данных мы планируем помещать данные в HBase и для неструктурированных, непосредственно в HDFS.Структурированная и неструктурированная индексация данных в Solr

Мой вопрос заключается в том, как индексировать эти источники под одним сердечником Solr? Можно ли индексировать как структурированные, так и неструктурированные данные в рамках одного ядра/коллекции в SolrCloud, а затем включить функцию поиска по этому индексу?

Заранее спасибо.

ответ

1

Вы можете в лучшем случае иметь схему Solr, которая содержит все возможные имена полей, например, для ваших структурированных и неструктурированных данных. Также обратите внимание, что, поскольку вы упомянули неструктурированный, вы можете добавить больше имен полей в существующий файл схемы. Если вы не можете добавлять поля, вам нужно подумать о другом способе сделать это возможным.

Таким образом, для ваших структурированных данных необходимо заполнять только значения полей, специфичных для ваших структурированных данных, и оставлять остальную часть полей нетронутой.

Для одного ядра и индекса в Solr вышеизложенное на самом деле является тем, как вы можете иметь разные документы, имеющие разные структуры.

Пожалуйста, вернитесь ко мне, если вы имели в виду что-то другое в вопросе.

Смежные вопросы