Я работаю с большим финансовым набором данных (сейчас 15gb, но будет 200 gb позже). что будет лучшим способом работать с ним. В частности, я хочу сделать некоторые статистические тесты и создать некоторые графики с использованием миллисекундных данных. До сих пор я использовал sqlite3 для встряхивания легкости, но, похоже, не способен обрабатывать размер файла. Я использую PyCharm (не уверен, что это помогает)лучший способ работы с большим набором данных в python
ответ
sqlite не является хорошей альтернативой, если вы хотите управлять большими объемами данных (на самом деле я бы не использовал sqlite для чего-то другого, кроме прототипирования или запуска тестов).
Вы можете попробовать использовать amazon RDS для хранения базы данных http://aws.amazon.com/es/rds/ и выбрать один из двигателей баз данных, предлагаемый amazon.
Что касается использования Python, я думаю, вы должны позволить процессору DB обрабатывать запросы и просто использовать python для создания графиков.
что такое двигатель БД? можете ли вы указать некоторые имена/примеры? – duckman
Например, PostgreSQL, MySQL, Oracle, Microsoft SQL Server и т. Д. –
- 1. Фильтрация с большим набором данных
- 2. DictVectorizer с большим набором данных
- 3. Python Значение ошибки работы с набором данных
- 4. Производительность многопроцессорности Python и psycopg2 с большим набором данных
- 5. Сравните значение с потенциально большим набором данных
- 6. Манипулирование большим набором данных CSV в памяти
- 7. Лучший способ работы с большим массивом или большой таблицей
- 8. скрипт python зависает при вызове cursor.fetchall() с большим набором данных
- 9. Сгенерировать образцы с большим набором данных
- 10. Лучший способ заполнить DataGridView большим объемом данных
- 11. Производительность DB с большим набором данных
- 12. Пейджинг с большим набором данных Linq2Sql, Repeater
- 13. Scipy.Spatial.KDTree.query - проблемы с большим набором данных
- 14. R штрихование странности с большим набором данных
- 15. Вложенные для петель с большим набором данных
- 16. SmartGWT ListGrid проблемы с большим набором данных
- 17. Выполнение операций с большим набором данных
- 18. Machine Learning -Исходит с большим набором данных
- 19. Угловой ресурс $ с большим набором данных
- 20. scikit-learn векторизация с большим набором данных
- 21. лучший способ справиться с большим количеством объектов в python
- 22. Лучшие практики с большим набором данных в C#
- 23. Лучший способ найти матч с большим столом
- 24. работы с набором данных в sklearn
- 25. Попытка работать в листах с большим набором данных
- 26. Linq для проблем с производительностью объектов с большим набором данных
- 27. Лучший способ работы с часами?
- 28. Лучший способ работы с макетом
- 29. Эффективный способ работы с большим количеством словарей
- 30. Любой хороший способ работы с большим количеством данных?
Pandas для комплекта 15Gb, в противном случае кластер s3 или кластер hdfs и PySpark, вероятно, были бы лучше –