Я работаю с платформой агрегации данных под названием XBus. Мне нужно сначала представить его. XBus объединяет много разных типов источников данных, таких как RDBMS, XML-файл, JSON-файл, webservice и некоторые другие. Пользователь может определить поток данных, который содержит много операций, таких как объединение, упорядочение, фильтрация, объединение, группировка. И тогда этот поток будет транслирован в скрипт XQuery. SAXON (механизм обработки XML) обработает сценарий XQuery на одном компьютере (сервере).Является ли MapReduce подходящим для агрегации данных?
Но если количество данных велико, это будет стоить долгий срок для завершения. Итак, я рассматриваю структуру MapReduce, которая может обрабатывать большой объем данных в распределенной среде. Но я не уверен, подходит ли MapReduce.
Возникает вопрос, который может показать мои сомнения.
Поскольку это платформа агрегации данных, исходные данные хранятся во многих разных системах. Нужно ли до обработки данных с помощью MapReduce собирать связанные данные из этих систем и помещать их в Mapreduce (HDFS)? Если это так, это займет много времени, верно?
Этот вопрос считается очень широким, и ваш прецедент описывается слишком неопределенно и, вероятно, не может быть без слишком раздутого вопроса. Я бы предложил просто спрашивая о ваших конкретных проблемах, как в вашем последнем абзаце. – millimoose