2016-05-30 2 views
1

Я работаю с большим финансовым набором данных (сейчас 15gb, но будет 200 gb позже). что будет лучшим способом работать с ним. В частности, я хочу сделать некоторые статистические тесты и создать некоторые графики с использованием миллисекундных данных. До сих пор я использовал sqlite3 для встряхивания легкости, но, похоже, не способен обрабатывать размер файла. Я использую PyCharm (не уверен, что это помогает)лучший способ работы с большим набором данных в python

+1

Pandas для комплекта 15Gb, в противном случае кластер s3 или кластер hdfs и PySpark, вероятно, были бы лучше –

ответ

0

sqlite не является хорошей альтернативой, если вы хотите управлять большими объемами данных (на самом деле я бы не использовал sqlite для чего-то другого, кроме прототипирования или запуска тестов).

Вы можете попробовать использовать amazon RDS для хранения базы данных http://aws.amazon.com/es/rds/ и выбрать один из двигателей баз данных, предлагаемый amazon.

Что касается использования Python, я думаю, вы должны позволить процессору DB обрабатывать запросы и просто использовать python для создания графиков.

+0

что такое двигатель БД? можете ли вы указать некоторые имена/примеры? – duckman

+0

Например, PostgreSQL, MySQL, Oracle, Microsoft SQL Server и т. Д. –

Смежные вопросы