2017-01-03 2 views
1

Это простой и простой вопрос, я думаю. Но я не смог найти ясный и простой ответ. вот это моя проблема:Python Open and parse a.txt url по одному

У меня есть .txt-файл с URL-адресами на каждой строке (около 300). Я получил эти URL-адреса из сценария python. Я хотел бы открыть один на один эти адреса и выполнить этот сценарий для каждого из них, чтобы получить некоторую информацию Меня интересует:

import urllib2 
from bs4 import BeautifulSoup 
page = urllib2.urlopen("http://www.aerodromes.fr/aeroport-de-saint-martin-grand-case-ttfg-a413.html") 
soup = BeautifulSoup(page, "html.parser") 
info_tag = soup.find_all('b') 
info_nom =info_tag[2].string 
info_pos =info_tag[4].next_sibling 
info_alt =info_tag[5].next_sibling 
info_pis =info_tag[6].next_sibling 
info_vil =info_tag[7].next_sibling 
print(info_nom +","+ info_pos+","+ info_alt +","+ info_pis +","+info_vil) 

aero-url.txt:

http://www.aerodromes.fr/aeroport-de-la-reunion-roland-garros-fmee-a416.html, 
http://www.aerodromes.fr/aeroport-de-saint-pierre---pierrefonds-fmep-a417.html, 
http://www.aerodromes.fr/base-aerienne-de-moussoulens-lf34-a433.html, 
http://www.aerodromes.fr/aerodrome-d-yvetot-lf7622-a469.html, 
http://www.aerodromes.fr/aerodrome-de-dieppe---saint-aubin-lfab-a1.html, 
http://www.aerodromes.fr/aeroport-de-calais---dunkerque-lfac-a2.html, 
http://www.aerodromes.fr/aerodrome-de-compiegne---margny-lfad-a3.html, 
http://www.aerodromes.fr/aerodrome-d-eu---mers---le-treport-lfae-a4.html, 
http://www.aerodromes.fr/aerodrome-de-laon---chambry-lfaf-a5.html, 
http://www.aerodromes.fr/aeroport-de-peronne---saint-quentin-lfag-a6.html, 
http://www.aerodromes.fr/aeroport-de-nangis-les-loges-lfai-a7.html, 
... 

Я думаю, что я должен использовать петля с чем-то вроде этого:

import urllib2 
from bs4 import BeautifulSoup 

# Open the file for reading 
infile = open("aero-url.txt", 'r') 

# Read every single line of the file into an array of lines 
lines = infile.readline().rstrip('\n\r') 

for line in infile 

page = urllib2.urlopen(lines) 
soup = BeautifulSoup(page, "html.parser") 

#find the places of each info 
info_tag = soup.find_all('b') 
info_nom =info_tag[2].string 
info_pos =info_tag[4].next_sibling 
info_alt =info_tag[5].next_sibling 
info_pis =info_tag[6].next_sibling 
info_vil =info_tag[7].next_sibling 

#Print them on the terminal. 
print(info_nom +","+ info_pos+","+ info_alt +","+ info_pis +","+info_vil) 

Я напишу эти результаты в txt-файле после. Но моя проблема здесь в том, как применить мой синтаксический скрипт к текстовому файлу urls.

+1

'lines' - это не список линий. Я считаю, что, как вы, похоже, намерены перебирать каждую строку в 'infile',' lines' не требуется. Кроме того, вы пропустите некоторые отступы, среди прочего. –

ответ

0

использование line вместо lines в urlopen

page = urllib2.urlopen(line) 

, так как вы используете infile в цикле, вам не нужно lines линии

lines = infile.readline().rstrip('\n\r') 

также отступы является неправильным для цикла.
Корректировка данных вашего кода должна быть как показано ниже.

import urllib2 
from bs4 import BeautifulSoup 

# Open the file for reading 
infile = open("aero-url.txt", 'r') 

for line in infile: 

    page = urllib2.urlopen(line) 
    soup = BeautifulSoup(page, "html.parser") 

    #find the places of each info 
    info_tag = soup.find_all('b') 
    info_nom =info_tag[2].string 
    info_pos =info_tag[4].next_sibling 
    info_alt =info_tag[5].next_sibling 
    info_pis =info_tag[6].next_sibling 
    info_vil =info_tag[7].next_sibling 

    #Print them on the terminal. 
    print(info_nom +","+ info_pos+","+ info_alt +","+ info_pis +","+info_vil) 
+0

Привет Анбарасан, спасибо за ваш ответ. К сожалению, у меня есть синтаксическая ошибка с 'для строки в infile', я попытаюсь выяснить, что не так. Если у тебя есть идея, я возьму ее! – Befup

+0

отсутствует двоеточие, которое должно быть в конце строки. Я отредактировал ответ, чтобы включить его. – Anbarasan