Позвольте мне добавить мои 2 ¢, это моя работа по получению хороших и чистых данных для хедж-фонда, я видел довольно много фидов данных и поставщиков исторических данных. Это в основном данные о запасах США.
Для начала, если у вас есть деньги, не заморачиваться с загрузкой данных из Yahoo, получить конец данных дня прямо из CSI data, это где Yahoo получает свои данные EOD, а AFAIK. У них есть API, в котором вы можете извлечь данные в любой формат. Я думаю, что ежегодная подписка на данные составляет несколько долларов за доллар.
Основная проблема с загрузкой данных из бесплатного сервиса заключается в том, что вы получаете только запасы, которые все еще существуют, это называется Survivorship Bias и может дать неверные результаты, если вы посмотрите на многие акции, потому что вы будете включать только те, которые сделал это до сих пор, а не те, которые были исключены из списка.
Для игр с некоторыми внутридневными данными я хотел бы посмотреть в IQFeed, они предоставляют несколько интерфейсов API для извлечения исторических данных, хотя они в основном наряд в реальное время каналов. Но здесь есть немало вариантов, некоторые брокеры даже обеспечивают загрузку исторических данных через свои API-интерфейсы, поэтому просто выбирайте свой яд.
НО, как правило, все эти данные не очень чисты, после того, как вы действительно начнете тестирование, вы увидите, что некоторые запасы отсутствуют или отображаются как два разных символа, или разброс запасов не учитывается должным образом и т. Д. И тогда вы понимаете, что необходимы исторические данные о дивидендах, и поэтому вы начинаете работать в кругах, паттируя данные вместе из 100 различных источников данных и так далее. Поэтому, чтобы начать с «дискового» фида данных, вы будете делать, но как только вы запустите более полные backtests, вы можете столкнуться с проблемами в зависимости от того, что вы делаете. Если вы просто посмотрите, скажем, на акции S & P 500, это не будет проблемой, хотя и будет работать «дешевый» внутридневной канал.
То, что вы не найдете, является бесплатным внутридневным данным. Я имею в виду, что вы можете найти несколько примеров, я уверен, что где-то 5 лет данных по типу MSFT, плавающих вокруг, но это не приведет вас к очень далеко.
Тогда, если вам нужен реальный материал (уровень II портфель заказов, все клещи, как они случились на всех биржах) один «доступным», но отличный вариант Nanex. Они действительно отправят вам диск с терабайтами данных. Если я правильно помню его около 3 тыс. Долларов США в год данных. Но поверьте мне, как только вы поймете, как сложно получить хорошие внутридневные данные, вы не будете думать, что это очень много денег.
Не препятствовать вам, но получить хорошие данные сложно, так сложно на самом деле, что многие хедж-фонды и банки тратят сотни тысяч долларов в месяц, чтобы получить данные, которым они могут доверять. Опять же, вы можете начать где-то, а затем идти оттуда, но приятно видеть это в контексте.
Редактировать: Ответ выше из моего собственного опыта. This write-up from Caltech о доступных источниках данных даст больше информации, и особенно рекомендует QuantQuote.
@rmeador, Yahoo не будет закрывать вас независимо от того, сколько запросов вы сделаете, но Google отключит вас. Я смог загрузить около 4 ГБ исторических цен EOD из Yahoo примерно через 5-6 часов без отключения. Это около 7 000 акций со всеми их историческими ценами EOD, так как они присоединились к рынку. См. Мой ответ для получения дополнительной информации и примера исходного кода. – Kiril
как получилось, что никто не сделал из него торрент. –
Я думал о том, чтобы создать его после того, как вы недавно поиграли с некоторыми финансовыми данными. Я уверен, что есть некоторые юридические проблемы с этим ... – cwoebker