если у вас есть много файлов, я думаю, что есть несколько способов, чтобы улучшить скорость индексирования:
Во-первых, если ваши данные на локальном диске, вы можете построить использовать индекс многопоточность, но нужно обратить внимание , каждый поток имеет свой собственный индекс выходного каталога. Наконец, они объединили их в индекс, чтобы улучшить скорость поиска.
Во-вторых, если ваши данные на HDFS, я думаю, что использование Hadoop MapReduce для создания индекса очень мощное. Кроме того, некоторые UDF-плагины Pig или Hive также могут легко создавать индексы, но вам нужно преобразовать ваши данные в таблицу улья или сделать схему свиньи, это просто!
В-третьих, для того, чтобы лучше понять выше способов, может быть, вы можете прочитать How to make indexing faster
Вы можете использовать список отметку в вашем ответе на большей читаемости. –