Я пытаюсь получить заголовок и ссылку каждой статьи от this site.python Запрос на отправку POST
Данные, представляющие интерес, загружаются javascript через некоторое время в ответ json.
var ltcom = 'TEFURVJDRVJB';
var ltpapaer = 'TFRQQVBFUg==';
var bender = new Canela.tool.Bender('searchBox',ltcom, {
replaceImg: 'http://resource.latercera.com/2015/css/img/bx_loader.gif', objectId: 'contentId', hl: 'abstract', taxonomyId: '24', ajaxTpl: true,
targets: { rowsContainer: 'result', pageContainer: 'pages', resumeContainer: 'resume' },
parameters: { type: 'CONTENT', fq: 'taxonomyId:24 AND status:2 AND launchDate:[2008-05-31T23:59:59.999Z TO NOW]', sort: 'launchDate desc', rows: 15 },
templates: {
rowTpl: '/index/tpl/rowTpl.html',
rowContainerTpl: '/index/tpl/rowContainerTpl.html',
pageTpl: '/index/tpl/pageTpl.html',
pageContainerTpl: '/index/tpl/pageContainerTpl.html',
resumeTpl: '/index/tpl/resumeTpl.html'
}
Я попытался использовать подход селена, но безуспешно.
Текущий код:
import requests
url="http://www.latercera.com/app/application"
data= {
'action':'searchSolr',
'type':'CONTENT',
'siteCode':'TEFURVJDRVJB',
'fq':'taxonomyId:24 AND status:2 AND launchDate:[2008-05-31T23:59:59.999Z TO NOW]',
'indent':'on',
'wt':'json',
'qt':'default',
'sort':'launchDate desc',
'start':'0',
'rows':'15',
'q':'enersis'
}
print (requests.get(url, data=data).text)
requests.get (URL, данные = данные) выплевывает 200.
Есть ли необходимость использовать некоторую информацию заголовка? Как мне двигаться дальше? Спасибо заранее!
Если «Интересующие данные загружаются javascript через некоторое время в ответ json», то co Вы не можете напрямую получить данные оттуда? Я не знаю, что вам нужно, но обычно, если публичный веб-сайт может получить к нему доступ, вы тоже можете. Откройте инструменты разработчика Google Chrome (F12) и перейдите на вкладку Сеть. Вы можете видеть все запросы и их ответы и содержимое. Вы можете получить URL и параметры оттуда. (не ответ, потому что я не знаю, если ваши данные общедоступны или нет. Если это помогает, я могу сделать это в ответ) – makaveli
Я пытаюсь получить заголовок и ссылку каждой статьи. Взгляните сюда: http://www.latercera.com/resultadoBusqueda.html?q=enersis 'print (request.post (url, data = data) .text)' тоже ничего не возвращает. – Pran