2015-03-24 4 views
-1

У меня есть сложный набор данных с более чем 16M рядами, поступающими из фармацевтической промышленности. Что касается данных, он сохраняется на сервере sql с более чем 400 реляционными таблицами.Инструменты для предварительной обработки больших данных для панелей мониторинга?

данных есть несколько уровней иерархии, как провинция, город, почтовый индекс, лицо и антигены мера и т.д.

Я хотел бы создать много панелей управления для того, чтобы наблюдать изменения & тенденции происходит. Для этой цели я могу использовать Pentaho, R (блестящий) или Tableau. Но проблема в том, что данные настолько огромны, и для обработки ее с помощью инструментальной панели требуется очень много времени. У меня есть выбор сделать куб и подключить его к панели.

Мой вопрос: есть ли какие-либо другие решения, которые я могу использовать вместо создания куба? Я не хочу испытывать трудности при создании &, поддерживая куб.

Я хотел бы использовать программное обеспечение, где я определяю отношения между таблицами, поэтому агрегация/объединение происходит плавно и выводит обработанные таблицы, которые могут подключаться к панелям. Я слышал, что Alteryx - это одно программное обеспечение, которое может сделать это за вас (я сам не пробовал, и это дорого!).

Я понимаю, что эта задача требует двух или более программных/инструментов. Пожалуйста, поделитесь своим опытом &. Укажите, какие инструменты вы используете, размер ваших данных и насколько быстро/эффективно используется вся система и другие необходимые детали.

ответ

0

Это зависит от того, насколько велик ваш набор данных (а не только количество строк) и насколько быстро работает ваш SQL-сервер.

Я загрузил наборы данных с> 20-миллиметровыми рядами (размером> 4 ГБ) непосредственно в таблицу (хотя это было на 64-битных машинах Windows или Mac с> 8 ГБ ОЗУ). И они функционируют хорошо.

Если объем данных является большим (что означает, вероятно, 10 с ГБ дискового пространства), тогда вам лучше подключить Tableau непосредственно к SQL-серверу и позволить серверу выполнять тяжелый подъем. Это также отлично работает. У меня есть набор данных на миллиард строк (быстрых и мощных) SQL-серверов, где это также работает на разумной скорости, если SQL-сервер оптимизирован для быстрой аналитики, а не для обработки транзакций.

Если ваша мощность или емкость локального сервера ограничена, я также предлагаю разместить ваши данные на что-то вроде BigQuery (или Amazon's Redshift), поскольку они смехотворно дешевы для настройки и предлагают потрясающую способность аналитики. В таблице есть разъемы для обоих, поэтому вы можете часто достигать интерактивных скоростей даже с наборами данных монстров. У меня есть тестовый набор данных длиной 500 м и около 100 ГБ данных, где я получаю типичные ответы на запросы для большинства запросов в 15-30, даже если я управляю их непосредственно из Tableau.

Смежные вопросы