2015-02-22 4 views
0

Я использую Google Таблицы для извлечения содержимого с THIS PAGE с использованием xpath.xpath find inside script tag

Использование ImportXml(), я могу извлечь HTML узлы легко с помощью XPath, например, с помощью: //*[@id='result_listing_1_0']/div[1]

Однако, когда я пытаюсь извлечь что-то, что находится внутри тега сценария, я получаю сообщение об ошибке (например, при использовании xpath, например //*[@id='exam_info_window_content_0_0']). В этом случае идентификатор находится внутри тега скрипта.

Как использовать xpath для извлечения HTML-кода внутри тега сценария в источнике веб-страницы.

Update: вот пример вывода я хочу:

Примечания для студентов:

Студенты должны представить действительный/разборчивого удостоверение личности с фотографией перед каждым назначением. Электронные устройства не разрешены во время назначений, если иное не указано в инструкциях по экзамену (телефоны сотовой связи , сотовые телефоны не могут использоваться в качестве калькуляторов). Студенты должны покинуть сотовые телефоны дома, в запертой машине или ухаживать за протектором . Все встречи должны быть подтверждены заранее.

детали Плата:

компьютерный экзамен - $ 40 в течение двух часов на бумажной основе экзамен - $ 30 в течение двух часов

Сайт:

http://www.csun.edu/ тестирование (без экранирующих символов это: HTTP: www.csun.edu/testing)


Примечания для студентов:

Студенты должны предъявить действительное/разборчивое фото ID перед каждым назначением. Электронные устройства не разрешены во время назначений, если иное не указано в инструкциях по экзамену (телефоны сотовой связи , сотовые телефоны не могут использоваться в качестве калькуляторов). Студенты должны покинуть сотовые телефоны дома, в запертой машине или ухаживать за протектором . Все встречи должны быть подтверждены за 24 часа.

Плата детали:

25 $ покрывает одно посещение. Несколько тестов могут быть сделаны на за один визит. Бесплатная парковка.

Сайт:

http://www.spectrumlearningcenters.com (без побега символов это: www.spectrumlearningcenters.com)

Выход будет извлечен из карты маркеров на страница: enter image description here enter image description here

+0

В чем именно должен выглядеть результат? Что бы вы хотели отобразить в ячейке результата? –

+0

очень похож на http://stackoverflow.com/questions/28655014/xpath-to-extract-multiple-id-tags-with-the-same-id – aberna

+0

@ MathiasMüller Спасибо за ваш комментарий. Я обновил свой вопрос, чтобы содержать пару снимков экрана. Цель состоит в том, чтобы извлечь весь текст во всех маркерах карты на странице. –

ответ

1

Элементы сценария содержат только текстовые узлы.

Вам нужно будет либо совместить текст (с contains), либо получить весь текстовый узел, извлечь из него HTML, проанализировать этот HTML-код в DOM, а затем запустить XPath на новом DOM.