2012-05-16 3 views
-1

Как я могу отказаться (получить) данные с веб-сайта.получить данные с веб-сайта

Пример: - У меня есть сайт сказать www.getfinancialdata.com

теперь я хочу, чтобы захватить данные, запустив скрипт/URL FRM свою систему на этом сайте, а затем

сортировки данных и сохранить в таблице.

Я сделал это для простого веб-сайта, где я могу просматривать содержимое HTML в теле веб-страницы (после просмотра исходного кода) Но моя проблема - это бит-компресс, когда я просматриваю источник, я вижу его это данные DOM (нет простого содержимого html), есть функции jquery, которые заполняют данные. ow я могу захватить данные из DOM (JQuery)

ответ

3

У меня был успех с использованием Selenium, чтобы очистить сайты, которые используют много javascript. Если он появляется в браузере, вы можете получить его с помощью Selenium. Это Java, но есть привязки, чтобы управлять им с вашего любимого языка сценариев; Я использую Python.

Возможно, вы также захотите посмотреть в безгласных браузерах, таких как Crowbar и PhantomJS. То, что мне нравится в селене, заключается в том, что возможность просмотра этого диска браузером помогает моей отладке. Также есть плагин Firefox (IDE), который может генерировать некоторый базовый код, чтобы вы начали ... вы просто щелкаете по нему, и он будет записывать то, что вы сделали (этот код, безусловно, всегда будет нуждаться в массировании/массовом редактировании, но это полезно, пока вы учитесь, как это делать).

Обратите внимание, что это удивительно твердый вещь. Особенно в больших масштабах. Веб-сайты грязные, они отличаются друг от друга, и со временем они меняются. Это приводит к соскабливанию либо беспризорных, либо забавных заданий, в зависимости от вашего отношения.

0

Если «www.finfinancialdata.com» принадлежит вам самим, рекомендуется использовать веб-сервис или webapi для связи с вашими клиентами. Вы получите чистые данные xml или json, а не html-коды.

+0

Я более чем уверен, что веб-сайт не принадлежит OP, потому что если бы это было так, то зачем ему/ей нужно извлекать информацию с сайта, а не напрямую? – Blender

+0

Нет, он не принадлежит мне. Я хочу получить данные с этого сайта, создав скребок. – shippy

Смежные вопросы