2016-10-24 3 views
0

Я пытаюсь разобрать твиттер. Выбранные выходы - это URL-адрес твита, дата твита, отправитель и сам твит. ошибок нет, но результат пуст. я не мог найти проблему кода по настоящему Договору: если вы могли бы помочь мне было бы здорово, следовательно, я использовал бы данные в моей диссертациис использованием результата BeautifulSoup пуст

from bs4 import BeautifulSoup 
import urllib.request 
import openpyxl 
wb= openpyxl.load_workbook('dene1.xlsx') 
sheet=wb.get_sheet_by_name('Sayfa1') 
headers = {} 
headers['User-Agent'] = "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17" 
url = 'https://twitter.com/search?q=TURKCELL%20lang%3Atr%20since%3A2012-01-01%20until%3A2012-01-09&src=typd&lang=tr' 
req = urllib.request.Request(url, headers = headers) 
resp = urllib.request.urlopen(req) 
respData = resp.read() 
soup = BeautifulSoup(respData , 'html.parser') 
gdata = soup.find_all("div", {"class": "content"}) 
for item in gdata: 
    try: 
     items2 = item.find('a', {'class': 'tweet-timestamp js-permalink js-nav js-tooltip'}) 
     items21=items2.get('href') 
     items22=items2.get('title') 
    except: 
     pass 
    try: 
     items1 = item.find('span', {'class': 'username js-action-profile-name'}).text 
    except: 
     pass 
    try: 
     items3 = item.find('p', {'class': 'TweetTextSize js-tweet-text tweet-text'}).text 
     sheet1=sheet.append([items21, items22,items1,items3]) 
    except: 
     pass 
wb.save('dene1.xlsx') 

приветов

ответ

0

Eevery линия в вашем excepts вызывает ошибка по крайней мере один раз, вы никогда не увидите их, как вы используете пустые excepts буквально поймать каждое исключение:

import urllib.request 
from bs4 import BeautifulSoup 


headers = { 
    'User-Agent': "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17"} 

url = 'https://twitter.com/search?q=TURKCELL%20lang%3Atr%20since%3A2012-01-01%20until%3A2012-01-09&src=typd&lang=tr' 
req = urllib.request.Request(url, headers = headers) 
resp = urllib.request.urlopen(req) 
respData = resp.read() 

soup = BeautifulSoup(respData, 'html.parser') 
gdata = soup.find_all("div", {"class": "content"}) 
for item in gdata: 
    items2 = item.find('a', {'class': 'tweet-timestamp js-permalink js-nav js-tooltip'}, href=True) 
    if items2: 
     items21 = items2.get('href') 
     items22 = items2.get('title') 
     print(items21) 
     print(items22) 
    items1 = item.find('span', {'class': 'username js-action-profile-name'}) 
    if items1: 
     print(items1.text) 
    items3 = item.find('p', {'class': 'TweetTextSize js-tweet-text tweet-text'}) 
    if items3: 
     print(items3.text) 

Теперь вы можете увидеть много продукции.

Смежные вопросы