2016-11-05 6 views
0

enter image description hereBeautifulSoup не извлекает таблицу

import urllib.request as urllib2 #To query website 
from bs4 import BeautifulSoup #To parse website 
import pandas as pd 


#specify the url and open 

url3 = 'http://www.thatscricket.com/ipl/2014/results/index.html' 
req = urllib2.urlopen(url3) 




soup = BeautifulSoup(req,"html5lib") 
all_tables=soup.find_all('table') 
print(all_tables) 

ответ

0

Если вы видите содержание ваших запрашиваемых данных

content = req.readall() 

, как вы исследуете содержание:

print(content) 

и удивительно там это не таблица !!!

Но если вы проверите источник страницы, вы увидите в нем таблицы.

Как я рассматривал, должна быть какая-то проблема с urllib.request, и на странице есть некоторая escape-последовательность, которая заставляет urllib получать только часть этой страницы. Так что я мог бы быть в состоянии решить эту проблему с помощью запросов вместо URLLIB

первого

pip install requests 

Затем измените свой код на этот:

import requests 
from bs4 import BeautifulSoup 

url3 = 'http://www.thatscricket.com/ipl/2014/results/index.html' 
req = requests.get(url3) 


soup = BeautifulSoup(req.content,"html5lib") 
all_tables=soup.find_all('table') 
print(all_tables) 
Смежные вопросы