2015-03-06 4 views
1

Меня попросили сократить существующую модель данных с помощью ETL эталона. Это скорее упражнение и способ познакомиться с этой программой, для которой я очень новичок.Сокращение данных с этапа данных

Конечно, данные должны быть уменьшены в соответствии с некоторыми функциональными правилами.

Таблица: ЧЛЕНСТВО (.., А, В, С) #, где А, В, С различными атрибуты (наши фильтры)

Восстанавливающих данными от ~ 700K строка 7k строка или около того.

Я думал о сохранении того же процента, что и в источнике данных. Поэтому, если у нас есть 70% A, 20% B и 10% C, мы бы в значительной степени имели тот же процент в сокращенной версии.

Я ищу лучший способ для этого и внутренние инструменты для использования (возможно, с этапом агрегатора?). Есть ли способ сделать некоторые скрипты, похожие на PL с DataStage? Надеюсь, я был достаточно ясен. Если у вас есть какие-либо советы, я буду очень благодарен.

Спасибо всем.

~ Whitoo

ответ

0

DataStage не делает в процентном отношении сокращения

Что вы можете сделать, это использовать этап трансформаторного или ступень фильтрации, чтобы отфильтровать данные из источника, основанного на определенных условиях. Но, как я сказал, условия должны быть очень конкретными. (например, выберите только те записи, которые имеют A = [somevalue] или A not = [somevalue])

+0

Привет Ашиш и спасибо за ответ. Я понимаю, что вы имеете в виду. –

Смежные вопросы