Hadoop/Spark для создания отчета большой аналитики

Я ничего не знаю о распределенных процессорах обработки, поэтому довольно сложно понять, подходит ли оно для моих нужд.Hadoop/Spark для создания отчета большой аналитики

У меня есть огромная таблица в базе данных отношений, пользователи работают с ней каждый день (операции и поиск crud).

И теперь есть новая задача - есть возможность построить огромный совокупный отчет за один-два года по требованию. И делайте это быстро. Все записи этой таблицы за последние два года слишком велики, чтобы вписаться в память, поэтому я должен разделить вычисления на куски, не так ли?

Я не хочу изобретать велосипед, поэтому мой вопрос: ли распределенные системы обработки, такие как Hadoop, подходят для таких задач?

источник

2016-03-31 silent-box

Это может быть. Способ Non Hadoop - создать полуагрегатный отчет, который вы можете использовать для другого агрегата. I.e используя 30-дневную совокупность для создания 1 месячного агрегата.

В некоторых случаях это может оказаться невозможным, поэтому вы можете вытащить данные в свой искровой кластер или в таком случае и выполнить свою совокупность. Обычно реляционная база данных не предоставляет вам возможности определения местоположения данных, поэтому вы можете перемещать данные в какую-то базу данных nosql, такую как Cassandra или hbase или elasticsearch. Также главный вопрос - вы хотите, чтобы ответ был в реальном времени? Если вы не выполняете какие-либо усилия, такие как работа сервера и т. Д., Или рабочие задания Hadoop, как правило, являются пакетной работой. Означает, что вы отправляете задание и получаете ответ позже (исключение искрообразования является исключением.)

источник

2016-03-31 22:48:13 Manas

К сожалению, нет способа использовать подход с предварительно агрегированными отчетами, потому что есть некоторые агрегированные параметры от ввода пользователя и в любое время некоторые новые данные могут быть перенесены из устаревших систем. Нет, в реальном времени нет необходимости, отчет должен генерироваться асинхронно. Означает ли это, что подход Hadoop - лучший подход в этом случае? –

Hadoop/Spark для создания отчета большой аналитики

ответ

Смежные вопросы