Один запрос, у меня есть две большие таблицы A (40 ГБ) и B (70 ГБ) в Mysql, мне часто требуется соединение из обеих таблиц. Я не использую join в запросе, так как он никогда не возвращает результат. Пожалуйста, подумайте, что все таблицы хорошо проиндексированы.Apache Spark: полезно использовать структурированные данные
Я беру данные из таблицы A и используя эти данные, я нахожу соответствующие записи в таблице B кусками. Я обрабатываю эти объединенные данные. Весь процесс требует времени, в зависимости от того, сколько обработки я делаю.
Я знаю, что Spark также может использоваться для распределенных вычислений.
Вопрос 1: Если я поместил эти данные в HDFS, а затем обработал его через искры apache, имеющую 5 узлов в кластере, может дать мне более быстрый результат? Я думаю, что да.
Вопрос 2: Измените структурированные данные (из MySql) на HDFS можно считать хорошим подходом?
Что значит лучший результат? Быстрее? Также, что вы подразумеваете под Unstructured Data? – gsamaras
Spark может подключаться к MySQL через JDBC-драйверы, так зачем вам нужно экспортировать в HDFS? –
И экспорт в HDFS по-прежнему приводит к структурированным данным, независимо от того, помещены ли в Hive или только файлы CSV. –