2015-09-14 2 views
0

Я пытаюсь просканировать сайт (с помощью python) и получить информацию о нем. Но когда я загружаю источник страниц, он отличается от того, что я вижу в контрольном элементе в хроме. Я googled, и мне кажется, я должен использовать селен, но я не знаю, как его использовать. Это код, который у меня есть, и когда я вижу файл driver.page_source, он по-прежнему является исходной страницей, как в хроме, и не похож на источник в элементе проверки. Я очень ценю, если кто-то может помочь мне исправить это.Код HTML в элементе проверки отличается от html исходного кода

`

import os 
from selenium import webdriver 

chromedriver = "/Users/adam/Downloads/chromedriver" 
os.environ["webdriver.chrome.driver"] = chromedriver 
driver = webdriver.Chrome(chromedriver) 
driver.get("http://www.tudiabetes.org/forum/users/Bug74/activity") 
driver.quit() 

`

ответ

1

Это называется XHR.
Ваша страница была загружена с другого вызова (ваш url загружает только strcuture страницы, а мясо страницы происходит из другого источника, используя XHR, форматированную строку json), а не pageload.

Вы должны действительно использовать requests и bs4 вместо запроса this page.

+0

Спасибо за ваш ответ. Но все же это не похоже на проверку кода элемента. Я пытаюсь найти пользователя, который присоединился к дате. Но я не могу. – Erin

+0

@ Эрин дата в разделе JavaScript на странице 'created_at": "2009-07-15T23' Предлагаю вам изучить' запросы' и 'bs4' – taesu

+0

Спасибо @taesu. Это решило проблему видеть присоединенную дату. Однако я надеялся получить что-то похожее на html-код в элементе проверки. – Erin