2012-03-24 3 views
5

Я строю систему для анализа большого количества финансовых данных по ценным бумагам. Большая проблема в этом заключается в определении того, какой метод хранения следует использовать для данных, данных о том, что данные будут в 10-х годах террабайтов. Будут много запросов на данные, такие как получение средних значений, вычисление стандартных отклонений и суммы, отфильтрованные по нескольким столбцам, такие как цена, время, объем и т. Д. Присоединительные утверждения не являются обязательными, но было бы неплохо иметь.Хранение данных для финансового анализа

Прямо сейчас, я изучаю информацию об общине сообщества индбрайт, monetdb и greenplum для оценки. Пока они кажутся замечательными, но для более сложных функций некоторые из них требуются в некоторых из этих выпусков (с использованием нескольких серверов, операторов вставки/обновления и т. Д.).

Какие решения вы бы использовали для этой ситуации, а преимущества это обеспечивали по сравнению с альтернативами? Экономичность - главный плюс. Если я должен заплатить за решение для хранилищ данных, я бы это сделал, но я бы предпочел бы избежать этого и, если возможно, взять маршрут с открытым исходным кодом/сообществом.

+1

Фактически (parial) суммы, средние значения, stddev - даже при фильтрации - не являются интеллектуальными данными. Это просто статистика **. –

+1

Data mining - это открытие новой информации из набора данных. Статистика - это инструмент, помогающий в этом процессе. Я не думаю, что такой акцент на терминологию является благоприятным, и если мы будем спорить об этом, мы ничего не добьемся.Это похоже на то, что я не согласен с вашим сообщением, потому что вы неправильно использовали статистику как «статистику» - это ненужный акцент на техничности. Моя цель - использовать эту базу данных для обнаружения новой информации. Кроме того, решения для хранилищ данных построены с учетом интеллектуального анализа данных. Поэтому здесь применима концепция интеллектуального анализа данных. – user396404

+0

Однако я согласен с вами в том, что «база данных», вероятно, является лучшим тегом для этого сообщения. – user396404

ответ

1

Infobright обеспечивает быструю производительность запросов без настройки, без выступов и без индексы на больших объемах данных. При загрузке данных я видел случаи, когда 80 ТБ данных в час могут загружать более 12 000 вставок в секунду.

Как это работает?

  1. Колонка Ориентация против Роу ориентации
  2. пакеты данных плюс сжатия в среднем 20: 1
  3. Knowledge Grid - Sub второй ответ на запрос
  4. Гранулированный двигатель, построенный на вершине тузд архитектуры

Я бы по-прежнему предлагал вам рассмотреть возможность изучения корпоративного лицензирования, но вы можете, конечно, оценить версию сообщества и проверить свою производительность и требования к загрузке данных.

Сведения об ответственности: автор является аффилированным лицом с Infobright.

1

Я думаю, что любая из упомянутых вами баз данных будет делать то, что вам нужно. Если вы имеете дело с 10-тичными данными о том, что получение корпоративной лицензии для работы в кластере MPP, вероятно, будет хорошим использованием средств, чтобы сократить время обработки. Кроме того, если этот DW будет делать важную обработку для вашей организации, наличие лицензии означает, что вы получаете поддержку от поставщика, что важно для многих компаний. YMMV.

Более важным вопросом будет вопрос, какими будут ваши данные, которые будут выглядеть так? Для финансовой системы, я думаю, что большая часть уравнения должна быть способностью продолжать загружать свежие данные в вашу систему, продолжая делать обычную обработку.

Я только знаком с Greenplum из вашего списка кандидатов, но я знаю, что он хорошо справляется с загрузкой больших объемов данных за короткий промежуток времени. GP также имеет множество встроенных статистических и аналитических функций, которые можно запускать изнутри внутри БД, включая встроенные функции SQL, MADLib, R и т. Д.

Смежные вопросы