2015-07-31 2 views
0

Учитывая каталог с сотнями файлов csv с разделителями табуляции, каждый из которых не содержит заголовка в первой строке. Это означает, что мы будем указывать имена столбцов другими способами. Эти файлы могут быть расположены на локальном диске или HDFS.Как индексировать все файлы csv в каталоге с помощью Solr?

Каков наиболее эффективный способ индексирования этих файлов?

ответ

1

если у вас есть много файлов, я думаю, что есть несколько способов, чтобы улучшить скорость индексирования:

Во-первых, если ваши данные на локальном диске, вы можете построить использовать индекс многопоточность, но нужно обратить внимание , каждый поток имеет свой собственный индекс выходного каталога. Наконец, они объединили их в индекс, чтобы улучшить скорость поиска.

Во-вторых, если ваши данные на HDFS, я думаю, что использование Hadoop MapReduce для создания индекса очень мощное. Кроме того, некоторые UDF-плагины Pig или Hive также могут легко создавать индексы, но вам нужно преобразовать ваши данные в таблицу улья или сделать схему свиньи, это просто!

В-третьих, для того, чтобы лучше понять выше способов, может быть, вы можете прочитать How to make indexing faster

+0

Вы можете использовать список отметку в вашем ответе на большей читаемости. –