2016-07-15 3 views
-3

я вовлечен в проект с 2-х фаз и я задаюсь вопросом, если это большой проект данных (я новичок в этой области)Является ли этот сценарий большим проектом данных?

На первом этапе у меня есть такой сценарий:

  • я должен собрать огромную Amont данных
  • мне нужно хранить их
  • мне нужно создать веб-приложение, которое показывает данные для пользователей

Во втором р hase Мне нужно проанализировать сохраненные данные и построить отчет и провести анализ по ним

Пример использования данных; в один прекрасный день я, возможно, придется собирать и хранить около 86.400.000 записи

Теперь я думал такого рода архитектуры:

  • для Colect данных Некоторые асинхронные TECNOLOGY как Активный MQ и протокол MQTT
  • для хранения данных я думал о NoSQL БД (Монго, Hbase или другой)

Теперь это будет решать мои первые фазовые проблемы

Но как насчет второй фазы?

Я подумывал о некоторых больших данных SW (например, hadoop or spark) и некоторых машинах, изучающих SW; так что я могу получить данные из БД, анализировать их и строить или хранить в лучшую сторону для того, чтобы построить хорошие отчеты и сделать некоторые конкретный анализ

мне было интересно, если это лучший подход

Как бы вы решить такой сценарий? Правильно ли я?

спасибо

Angelo

+0

http://stackoverflow.com/questions/35560823/what-is-big-data-what-classifies-as-big-data/35561146#35561146 –

ответ

0

Определение больших объемов данных варьируется от пользователя к пользователю. Для Google 100 ТБ могут быть небольшие данные, но для меня это большие данные из-за различий в доступном аппаратном товаре. Ex -> Google может иметь кластер из 50000 узлов на каждом узле с 64 ГБ RAM для анализа 100 Tb данных, поэтому для них это не большие данные. Но у меня нет кластера из 50000 узлов, поэтому для меня это большие данные.

Это ваш случай, если у вас есть доступное аппаратное обеспечение, вы можете пойти с hadoop. Поскольку вы не указали размер файла, который вы генерируете каждый день, я не могу быть уверен в вашем случае. Но hadoop всегда является хорошим выбором для обработки ваших данных из-за новых проектов, таких как искра, которая может помочь вам обрабатывать данные за гораздо меньшее время, и, кроме того, она также дает вам функции анализа в реальном времени. Поэтому, по моему мнению, лучше использовать искру или хаоп, потому что тогда вы можете играть с вашими данными. Более того, поскольку вы хотите использовать базу данных nosql, вы можете использовать hbase, доступную с hadoop для хранения ваших данных.

Надеюсь, это ответит на ваш вопрос.

+0

ну это именно то, что я думаю ... но я Интересно: активно MQ + MQTT достаточно для сбора огромного количества данных (86 миллионов записей в день означают около 1000 записей за секунду)? Я думал использовать HBase + Hadoop + Hive + mohout (с Samsara), и я думаю, что я в правильном направлении .... –

1

Как ответил сиддхартха, может ли ваш проект быть помечен как проект bigdata или нет, зависит от контекста и объема домена/случая вашего проекта.

Приходя в технический стек, каждая из упомянутых вами технологий имеет конкретную цель. Например, если у вас есть структурированные данные, вы можете использовать любую новую базовую базу данных с поддержкой запросов. Базы данных NoSQL имеют разные вкусы (columner, document based, key-value и т. Д.), Поэтому выбор технологии снова зависит от типа данных и используемого вами случая. Я предлагаю вам сделать некоторые POC и анализ технологий до принятия окончательных вызовов.

Смежные вопросы