2016-05-22 5 views
0

Я новичок в программировании (хотя я готов учиться), поэтому заранее извиняюсь за мой самый простой вопрос.Создайте список путей FTP-файла EDGAR

[SEC делает доступными все свои заявки через FTP] [1], и в конечном итоге, я хотел бы загрузить подмножество этих файлов навалом. Однако, прежде чем создавать такой сценарий, мне нужно, чтобы создать список для размещения этих файлов, которые имеют следующий формат:

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

  • 51143 = компания ID, и я уже доступен список идентификаторов компании мне нужно через FTP
  • 000005114313000007/0000051143-13-000007 = отчета ID, так называемый "номер доступа"

Я борюсь с тем, как понять это, поскольку документация довольно светлая. Если у меня уже есть 000005114313000007/0000051143-13-000007 (что SEC называет «номером присоединения»), то это довольно просто. Но я ищу ~ 45 тыс. Записей и, очевидно, нужно будет генерировать их автоматически для заданного CIK ID (который у меня уже есть).

Есть ли автоматизированный способ достижения этого?

ответ

0

Добро пожаловать в SO.

В настоящее время я соскабливаю один и тот же сайт, поэтому я объясню, что я сделал до сих пор. Я предполагаю, что у вас будут номера CIK компаний, которые вы хотите очистить. Если вы ищете CIK компании, вы получите список всех файлов, доступных для данной компании. Давайте использовать Apple в качестве примера (поскольку они имеют ТОННУ файлов):

Link to Apple's Filings

Здесь вы можете установить фильтр поиска. Документ, который вы связали, был 10-Q, поэтому давайте использовать его. Если вы фильтруете 10-Q, у вас будет список всех 10-Q документов. Вы заметите, что URL-адрес слегка изменился, чтобы разместить фильтр.

Вы можете использовать Python и его библиотеки для очистки веб-страниц, чтобы получить этот URL-адрес и очистить все URL-адреса документов в таблице на этой странице. Для каждой из этих ссылок вы можете очистить все ссылки или информацию, которые вы хотите от страницы. Я лично использую BeautifulSoup4, но lxml - еще один выбор для веб-скрипинга, если вы выбрали Python в качестве языка программирования. Я бы рекомендовал использовать Python, так как довольно легко изучить основы и некоторые промежуточные программирующие конструкции.

Прошлый, проект за вами. Удачи, я опубликовал несколько ссылок ниже, чтобы вы начали. Я только разрешается размещать две ссылки, так как я новичок на сайте, так что я дам вам ссылку красивый суп:

Beautiful Soup Home Page

Если вы решили использовать Python и являются новыми для языка , проверьте курс codecademy python и не забудьте проверить lxml, так как некоторые люди предпочитают его по сравнению с BeautifulSoup (некоторые люди также используют оба совместно, поэтому все это зависит от личных предпочтений).