Как получить имя страницы с Yahoo Pipes?Yahoo Pipes and Website Name
Я создаю агрегатор новостей/блога и должен знать название сайта, откуда поступает информация (bbc, cnn, fox и т. Д.).
Нужно ли это делать с REGEX?
Кому-нибудь может помочь?
Как получить имя страницы с Yahoo Pipes?Yahoo Pipes and Website Name
Я создаю агрегатор новостей/блога и должен знать название сайта, откуда поступает информация (bbc, cnn, fox и т. Д.).
Нужно ли это делать с REGEX?
Кому-нибудь может помочь?
Я нашел этот образец трубы http://pipes.yahoo.com/pipes/pipe.info?_id=69b5dce1c59501a0c64a660c1cfdb856. В названии страницы также указано название сайта. Я не уверен, что это то, что вы ищете.
Вы можете получить страницу с помощью XPath Fetch Page или Fetch Feed модули в Источники меню. Может быть, и с другими.
После этого вы можете сами извлечь имя страницы, используя различные операторы, возможно Regex или другие, в зависимости от используемой вами исходной страницы и вывода, который вы хотите получить.
В общем, ваш вопрос слишком широк и трудно ответить. Чтобы начать работу, я создал примерный канал, который извлекает заголовок вашего вопроса из этого сообщения, что в основном является «именем страницы» на текущей странице.
http://pipes.yahoo.com/pipes/pipe.info?_id=668acf3f807c30d7b75f12459edd3252
Я использовал XPath Fetch Page с параметрами:
//div[@id="question-header"]
я получил, что div
путь по проверяя исходный код этой страницы, где я увидел, что div#question-header
есть контейнер. Я мог бы выбрать более глубокий внутренний контейнер или контейнер более высокого уровня. Все зависит от количества другой необходимой информации. Чем больше информации вы хотите от страницы, тем вы выбираете контейнер более высокого уровня.
Далее я использовал Создать RSS оператору создать правильный RSS-канал, с параметрами:
h1.a
h1.a.href
Я выбрал эти элементы, потому что в контейнере, который я извлечил с помощью xpath, имя страницы находится внутри h1 a
. В Yahoo Pipes вы используете точку в качестве разделителя путей.