Я пытался с различными вариантами, например. Selenium, BeautifulSoup ... и т. Д., Чтобы очистить следующий сайт/страницы: http://item.jd.com/526444.html#comment. Я пытаюсь очистить обзор/разделы: их более 6000, они динамически загружаются JS, jQuery ... и т. Д. Я уже читал существующие статьи в течение нескольких дней, без успеха. Ваша помощь будет высоко оценена. Сайт находится на китайском языке. Я прикрепил снимок экрана ниже, так что вы знаете, где его посмотреть. Спасибо! Я пробовал Селен, но он повесился каждый раз. не знаю почему. Скремблирование отзывов с веб-страницы с помощью JavaScript, JQuery
from selenium import webdriver
import time
from pandas import DataFrame
from urllib.request import urlopen
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.PhantomJS(executable_path=r'C:\phantomjs')
driver = webdriver.Chrome(executable_path=r'C:\chrome')
driver.get("item.jd.com/526444.html#comment")
try:
element = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,'loadedButton')))
finally:
print(driver.find_element_by_id('content').text)
driver.close()
driver.page_source
bsObj = BeautifulSoup(driver.page_source)
import requests
from lxml import html
response = requests.get('http://pycoders.com/archive/')
tree = html.fromstring(response.text)
print(tree.xpath('//divass="campaign"]/a/@href'))
import sys
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
from lxml import html
from bs4 import BeautifulSoup
class Render(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def _loadFinished(self, result):
self.frame = self.mainFrame()
self.app.quit()
url = 'http://item.jd.com/526444.html#comment'
r= Render(url)
result = r.frame.toHtml()
jd = BeautifulSoup(result)
jd.find('span', {'class':'desc'})
Что вы пытаетесь? Просьба представить образцы кода и ошибки, чтобы мы могли направлять вас в правильном направлении. – JeffC
@JeffC да, я только что обновил код. Я пробовал разные вещи, извините, код очень грязный. Я пробовал Селен, потом он повесился без видимой причины. Я попробовал PyQt и не смог захватить обзор, который я хотел. Заранее спасибо за помощь! –
Просьба указать необходимую разметку страницы. –