Я ничего не знаю о распределенных процессорах обработки, поэтому довольно сложно понять, подходит ли оно для моих нужд.Hadoop/Spark для создания отчета большой аналитики
У меня есть огромная таблица в базе данных отношений, пользователи работают с ней каждый день (операции и поиск crud).
И теперь есть новая задача - есть возможность построить огромный совокупный отчет за один-два года по требованию. И делайте это быстро. Все записи этой таблицы за последние два года слишком велики, чтобы вписаться в память, поэтому я должен разделить вычисления на куски, не так ли?
Я не хочу изобретать велосипед, поэтому мой вопрос: ли распределенные системы обработки, такие как Hadoop, подходят для таких задач?
К сожалению, нет способа использовать подход с предварительно агрегированными отчетами, потому что есть некоторые агрегированные параметры от ввода пользователя и в любое время некоторые новые данные могут быть перенесены из устаревших систем. Нет, в реальном времени нет необходимости, отчет должен генерироваться асинхронно. Означает ли это, что подход Hadoop - лучший подход в этом случае? –