Я пытаюсь использовать MLib Spark на огромном наборе данных, который мы в настоящее время сохраняем в базе данных временных рядов. Скажем, если у нас есть данные A, B, C, D и E в нашей базе данных временных рядов, я бы захотел загрузить A, B, C и сначала сделать некоторое преобразование, а затем передать преобразованные данные в Spark MLib.Apache Spark RDD Workflow
У меня есть пара вопросов в этом отношении. Есть ли стандартный рабочий процесс, который я должен рассмотреть? Я имею в виду, что загрузка, преобразование данных по-прежнему представляется мне вопросом. Это не что-то особенное для Spark. Я хотел бы знать, есть ли какая-либо польза от использования фреймворков, таких как Apache Camel для выполнения ETL, а затем передать результаты Spark?
Любые предложения?