2013-08-31 3 views
1

Как получить имя страницы с Yahoo Pipes?Yahoo Pipes and Website Name

Я создаю агрегатор новостей/блога и должен знать название сайта, откуда поступает информация (bbc, cnn, fox и т. Д.).

Нужно ли это делать с REGEX?

Кому-нибудь может помочь?

ответ

1

Вы можете получить страницу с помощью XPath Fetch Page или Fetch Feed модули в Источники меню. Может быть, и с другими.

После этого вы можете сами извлечь имя страницы, используя различные операторы, возможно Regex или другие, в зависимости от используемой вами исходной страницы и вывода, который вы хотите получить.

В общем, ваш вопрос слишком широк и трудно ответить. Чтобы начать работу, я создал примерный канал, который извлекает заголовок вашего вопроса из этого сообщения, что в основном является «именем страницы» на текущей странице.

http://pipes.yahoo.com/pipes/pipe.info?_id=668acf3f807c30d7b75f12459edd3252

Я использовал XPath Fetch Page с параметрами:

  • URL = эту страницу
  • Извлечение с использованием XPath = //div[@id="question-header"]

я получил, что div путь по проверяя исходный код этой страницы, где я увидел, что div#question-header есть контейнер. Я мог бы выбрать более глубокий внутренний контейнер или контейнер более высокого уровня. Все зависит от количества другой необходимой информации. Чем больше информации вы хотите от страницы, тем вы выбираете контейнер более высокого уровня.

Далее я использовал Создать RSS оператору создать правильный RSS-канал, с параметрами:

  • Название = h1.a
  • Link = h1.a.href

Я выбрал эти элементы, потому что в контейнере, который я извлечил с помощью xpath, имя страницы находится внутри h1 a. В Yahoo Pipes вы используете точку в качестве разделителя путей.

Смежные вопросы