2012-04-28 1 views
0

У меня есть большой набор данных событий в базе данных Postgres, который слишком велик для анализа в памяти. Поэтому я хотел бы квантовать данные datetimes на регулярный интервал и выполнять группу по операциям в базе данных до возвращения результатов. Я думал, что я буду использовать SqlSoup для повторения записей в соответствующей таблице и внесения необходимых преобразований. К сожалению, я не могу понять, как выполнить итерацию таким образом, что я не загружаю ссылки на каждую запись в память сразу. Есть ли способ получить одну запись за один раз, чтобы получить доступ к данным и обновить каждую запись по мере необходимости?Преобразование данных в Postgres Использование SqlSoup

Любые предложения были бы высоко оценены!

Chris

+0

Образец кода, показывающий основную проблему, позволит кому-то сделать конкретное предложение. – kgrittn

+0

Это разная неопределенность. * Почему * вы хотите выполнить обработку «row in a time» (итерация)? Являются ли ваши данные фактически графиком с записями, указывающими на несколько других записей без какой-либо группировки или вложенности? И: 10^7 записей невелики для базы данных. – wildplasser

ответ

1

После разговора с некоторыми людьми, это довольно ясно, что лучшим ответом является использование Pig для обработки и агрегировать мои данные локально. В масштабах, я работаю, было неясно, что Hadoop был подходящим инструментом для достижения цели. Об одном человеке, о котором я говорил, говорит о том, что Свинья будет на порядок быстрее, чем операции БД в масштабе, в котором я работаю, и составляет около 10^7 записей.

Смежные вопросы