2013-08-23 5 views
0

Я использую простой скрипт javascript в пакетном файле для загрузки аудио и видео - радио и телевизионных шоу - из iPlayer BBC.HTML Скребок с Javascript

Часть скрипта извлекает данные из XML-страниц BBC.

Теперь я хочу попробовать извлечь данные со страницы html. Может ли кто-нибудь указать мне на метод javascript для извлечения данных с обычной страницы .htm или .html?

Я очень хочу, чтобы все было просто, с помощью javascript-подпрограммы, которую я могу включить в html-страницу на моем сайте, поэтому меня интересуют только решения javascript. Благодарю.

Редактировать, 24 Авг -

HTML страницы ВВС не реагируют на скрипты Javascript успешно разбором их XML-страницы.

Я использую простой JavaScript опрашивать XML, на основе этого -

функция loadXML() { xmlDoc = новый ActiveXObject ("Microsoft.XMLDOM"); xmlDoc.async = false; xmlDoc.onreadystatechange = readXML; xmlDoc.load (url); }

+0

Some (но нигде не все) _HTML_ будет успешно проанализирован парсером _XML_ –

+0

hmmmmm .... пиратство? – totallyuneekname

+0

Я не задаю этот вопрос, чтобы пиратствовать на сайте. Я хочу извлечь некоторые ограниченные детали программы из радио и телевизионных расписаний BBC, в связи с записью случайных радиопередач. Например, я хотел бы иметь возможность извлекать и хранить в текстовом файле даты предыдущих передач шоу, которые являются неизменно элементами html, например. с этой страницы: http://www.bbc.co.uk/programmes/b007nf83/broadcasts – Ed999

ответ

0

Ваш вопрос нечеткий. Я думаю, что может быть два способа сделать это: 1. примените RegExp для соответствия шаблонам 2. импортируйте html в симулятор dom и пройдите дерево, чтобы найти данные (предположим, вы используете nodejs)

+0

Есть ли какой-нибудь пример в любом месте в Интернете, на который я мог бы взглянуть, чтобы понять, как это достигается в любом случае? – Ed999

Смежные вопросы