2017-02-08 5 views
1

Я пытаюсь скрести веб-таблицу с использованием BeautifulSoup и python2.7BeautifulSoup неполная таблица парсинг в Python

Запрос в порядке, но разбор является неполным. Кажется, что останавливается около 1668 ячеек независимо от реальной длины стола.

Вот код:

import os, time, string, operator, requests 
from bs4 import BeautifulSoup 

url='http://fse.vdkruijssen.eu/ferrylist.php' 

params ={'selectplane':'Cessna 208 Caravan','submit':''} 
response=requests.post(url, data=params) 

soup = BeautifulSoup(response.text, "lxml") 
table = soup.find(id="ferryplane") 
for tr in table.find_all('tr', class_=True): # filter the row that without text 
    row = [cell.text for cell in tr.find_all('td')] 
    print(row) 

Как я могу retrive все клетки?

Я довольно новый для веб выскабливания, любая помощь будет очень признателен

Спасибо!

EDIT: По-видимому, никаких проблем с кодом нет. Я все еще получаю усеченный ответ, как показано (последние строки). Если у вас есть представление о том, что вызывает это, скажите мне!

enter image description here

ответ

0
import os, time, string, operator, requests 
from bs4 import BeautifulSoup 

url='http://fse.vdkruijssen.eu/ferrylist.php' 

params ={'selectplane':'Cessna 208 Caravan','submit':''} 
response=requests.post(url, data=params) 

soup = BeautifulSoup(response.text, "lxml") 
table = soup.find(id="ferryplane") 
for tr in table.find_all('tr', class_=True): # filter the row that without text 
    row = [cell.text for cell in tr.find_all('td')] 
    print(row) 

из:

['HB-TCK', 'Badenflug (carbonex)', 'LSZS', 'LSMU', '67', '1000', '670', '348', '419'] 
['RPC-3255', 'Bank of FSE', 'WAMR', 'RPLV', '910', '110', '1001', '-3374', '-2405'] 
['I-FGTY', 'Bank of FSE', 'LGEL', 'LIBN', '284', '110', '312', '-1428', '-925'] 
['ZT-YMC', 'Bank of FSE', 'FLEB', 'FAUT', '1230', '110', '1353', '-4560', '-3251'] 
['CS-PRB', 'PRA Rentals (Matt74)', 'LZKZ', 'EDDK', '561', '175', '982', '-1908', '-1180'] 
['ZU-YTU', 'Bank of FSE', 'FABE', 'FAJS', '409', '110', '450', '-2008', '-1300'] 
['ZS-FXN', 'cckohrs', 'FYML', 'FALA', '548', '200', '1096', '-2668', '-1377'] 
['HL-7227', 'Bank of FSE', 'RJOB', 'RKSO', '360', '110', '396', '-1483', '-971'] 

Я уверен, что ни одна строка не хватает: enter image description here

+1

Спасибо за ответ, но это дает мне тот же результат: Последний выход усечено, а в конце таблицы отсутствует – MagicP

+0

@MagicP, какая строка отсутствует? –

+0

@MagicP проверить мой снимок экрана –

Смежные вопросы