2016-10-02 4 views
0

Я ищу распределенную базу данных временных рядов, которая может свободно использоваться в режиме настройки кластера и готовой продукции, плюс она должна хорошо вписываться в экосистему хаопов.Аналитика в реальном времени База данных временных рядов

У меня есть проект IOT, который в основном содержит около 150 тыс. Датчиков, которые отправляют данные каждые 10 минут или один час, поэтому я пытаюсь посмотреть базу данных временных рядов, которая имеет полезные функции, такие как агрегирование показателей, aggregate (roll-ups), я нашел это сравнительное значение в этом документе таблицы стилей Google time series database comparative.

Я испытал Opentsdb, модель данных о hbaserowkey действительно подходит моему случаю использования: а функция, которые подоконник должны быть разработаны для моего случая использования является:

  • агрегатных кратными метрики
  • сделать накопительные пакеты

я испытал также keirosDB, который является ответвлением opentsdb с более богатым API и использует Кассандру в качестве хранилища бэкэнда вещи является то, что их API делает все, что я смотрел на субдискретизацию накопительных запрашивая кратные показатели и многих другим ,

Я тестировал Warp10.io и Apache Phoenix, которые я прочитал здесь Hortonworks link, что он будет использоваться метриками Ambari, поэтому я предполагаю, что он хорошо подходит для данных временных рядов.

В настоящее время я задаю вопрос о том, какая из лучших баз данных временных рядов должна анализировать в реальном времени с производительностью запросов в соответствии с 1S для всех типов запросов: мы хотим, чтобы среднее из агрегированных данных, отправленных 50 датчиками в период 5 лет ремаркетированы месяцами?

Такие запросы, которые я предполагаю, не могут быть выполнены под 1С, поэтому я считаю, что для таких запросов нам нужен механизм rollups/pre aggregate, но я не уверен, потому что там много инструментов, и я не могу решите, какой из них лучше всего подходит.

ответ

4

Я ведущий для Warp 10, поэтому мой ответ можно считать самоуверенным.

Учитывая ваш прогнозируемый объем данных, 150 тыс. Датчиков, отправляющих данные каждые 10 минут, это среднее значение 250 точек в секунду и менее 40 Б в течение 5 лет. Такой объем может легко вписываться в простой автономный Warp 10, и если вам потребуется более крупная инфраструктура, вы можете перейти на распределенный Warp 10 на основе Hadoop.

С точки зрения запросов, если ваши данные уже передискретизированы, выборка пятилетних ежемесячных данных для 50 датчиков составляет всего 3000 точек данных, Warp 10 может сделать это намного меньше, чем 1 с, а автоматические накопительные пакеты - это всего лишь вопрос планирования кода WarpScript ежемесячно, ничего необычного.

Наконец, с точки зрения интеграции с экосистемой Hadoop, Warp 10 находится на вершине вещей с интеграцией языка WarpScript в Pig, Spark, Flink и Storm. С Warp10InputFormat вы можете извлекать данные с платформы Warp 10 или загружать данные с помощью любого другого InputFormat, а затем манипулировать ими с помощью WarpScript.

0

В OVH мы тяжелые пользователи @OvhMetrics, которые полагаются на Warp10/HBase, и мы обеспечиваем абстракцию протокол с OpenTSDB/WarpScript/PromQL/...

Я не заинтересован в Warp10, но для нас был большим успехом. Как по проблеме масштабирования, так и по используемым вариантам использования WarpScript.

В большинстве случаев мы не используем интеграцию hadoop/flink, так как потребности наших клиентов легко решаются с помощью API WarpScript реального времени.