У меня есть задача сжать данные фондового рынка как-то ... данные находятся в файле, где значение запаса за каждый день указывается в одной строке и так далее ... так что это действительно большой файл.Сжатие данных
Например,
123,45
234,75
345,678
889,56
.....
теперь вопрос заключается в том, чтобы сжать данные (ака уменьшить избыточность), используя стандартные алгоритмы, такие как Хаффман или Арифметическое кодирование или кодирование LZ ... какое кодирование является наиболее предпочтительным для такого рода данных ...
Я заметил, что если я возьму первые данные, а затем рассмотрите разницу между каждым последовательным данным, есть много повторений в значениях разницы ... это заставляет меня задаться вопросом, если сначала принять эти различия, найти их частоту и, следовательно, вероятность, а затем использовать кодирование хаффмана будет способом ...
Am i right? ... может ли кто-нибудь дать мне несколько предложений.
Почему вы не делаете сравнения? – jldupont
http://mathoverflow.com/ – jldupont