2015-10-07 4 views
0

Я хотел бы использовать полнотекстовую поисковую систему, и я решил стать Сфинкс. Но я работаю с платформой hadoop и Big data, а Sphinx Search совместим с mysql DB, который не может обрабатывать большие данные.Сфинкс и большие данные

Итак, есть ли способ использовать Sphinx с большими средами данных, такими как hadoop или HDFS или любая другая база данных nosql?

ответ

1

Ну, он поставляется со встроенными драйверами для загрузки данных из РСУБД, но, конечно, не ограничен как таковой.

Для стартеров там вариантов индексации 'трубы' ...

http://sphinxsearch.com/docs/current.html#xmlpipe2 http://sphinxsearch.com/docs/current.html#xsvpipe

Это просто запустить сценарий и индексирование вывода. Этот скрипт может извлекать данные из любой возможной системы.

Много проектов можно использовать, чтобы начать работу, ramdom пример: https://github.com/georgepsarakis/mongodb-sphinx

Вы также могли бы быть в состоянии получить injest выход CSV из Hadoop напрямую?

Есть также индексы реального времени. Если данные вставляются непосредственно в индекс, на лету. Не эксперт Hadoop, но теоретически, может ли проект hadoop вводить результаты непосредственно в sphinx (outputcommitter?), Скорее (или в дополнение) записывать результаты в HDFS. http://sphinxsearch.com/docs/current.html#rt-indexes

Может также быть в состоянии использовать что-то вроде https://www.percona.com/blog/2014/06/02/using-infinidb-engine-mysql-hadoop-cluster-data-analytics/ в качестве моста между Hadoop и сфинкса. (т.е. индекс индекса sphinx'es создает индекс через фальшивый движок mysql)

+0

Так я смогу хранить файлы TSV или JSON в HDFS и индексировать их в sphinx? И как я могу это сделать? –

+0

Вероятно, самым простым был бы небольшой скрипт, который перечислял бы все файлы и выводил их содержимое. Это используется в сценарии TSVpipe. (Я не думаю, что есть еще один JSON-указатель потока, поэтому мне нужно будет преобразовать JSON в что-то еще в скрипте. – barryhunter

+0

это не большой вопрос, но вопрос в том, что я могу индексировать сохраненные TSV-файлы в HDFS с помощью Sphinx? –

Смежные вопросы