Я собираюсь начать собирать большие количества числовых данных в режиме реального времени (для тех, кого интересует, ставка/спросить/последняя или «лента» для разных акций и фьючерсов) , Затем данные будут получены для анализа и моделирования. Это совсем не сложно, но я хотел бы сделать это эффективно, и это вызывает много вопросов. В любом случае, мне не нужно лучшее решение (и, вероятно, много «бестселлеров» в зависимости от метрики). Я бы просто хотел, чтобы это одобрило компьютерный ученый. (Или не смейтесь?)Сбор, хранение и извлечение больших количеств числовых данных
(1) Оптимизация для дискового пространства, скорости ввода-вывода или памяти?
Для моделирования важна общая скорость. Мы хотим, чтобы скорость ввода/вывода (действительно, I) была быстрее, чем вычислительный движок, поэтому мы не ограничены I/O.
(2) Сохранять текст или что-то еще (двоичный цифровой)?
(3) Учитывая набор вариантов из (1) - (2), существуют ли выдающиеся языковые/библиотечные комбинации для выполнения задания - Java, Python, C++ или что-то еще?
Я бы классифицировал этот код как «писать и забывать», поэтому больше баллов за эффективность над ясностью/компактностью кода. Мне очень хотелось бы использовать Python для кода моделирования (потому что симы сильно меняются и должны быть понятны). Таким образом, бонусные баллы за хорошие решения Pythonic.
Edit: это для системы Linux (Ubuntu)
Спасибо
Вы считали MATLAB? Это очень * эффективно при численном сжатии и может сохранять файлы в хорошо сжатом формате. –
Обратите внимание, что ясность часто идет рука об руку с эффективностью из-за большего понимания реализуемого алгоритма. –