Все,Зачистка значения из заголовка HTML и сохранение как CSV файл в Python
Я только начал использовать Python (ст 2.7.1) и один из моих первых программ пытается наскрести информацию с веб-сайта, содержащего данные электростанции с использованием стандартной библиотеки и BeautifulSoup для обработки элементов HTML.
Данные, которые я хотел бы получить, можно получить в разделе «Голова» HTML или в виде таблиц в основной части. Веб-сайт будет генерировать CSV-файл из него, если щелкнуть ссылку CSV.
Используя пару источников на этом веб-сайте, мне удалось собрать код ниже, который вытащит данные и сохранит их в файл, но содержит указатели \ n. Попытайтесь, как я мог, я не могу получить правильный CSV-файл, чтобы сэкономить.
Я уверен, что это что-то простое, но, по возможности, нужно немного помочь!
from BeautifulSoup import BeautifulSoup
import urllib2,string,csv,sys,os
from string import replace
bm_url = 'http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=T_COTPS-4¶m2=¶m3=¶m4=¶m5=2011-02-05¶m6=*'
data = urllib2.urlopen(bm_url).read()
soup = BeautifulSoup(data)
data = str(soup.findAll('head',limit=1))
data = replace(data,'[<head>','')
data = replace(data,'<script language="JavaScript" src="/bwx_generic.js"></script>','')
data = replace(data,'<link rel="stylesheet" type="text/css" href="/bwx_style.css" />','')
data = replace(data,'<title>Historic Physical Balancing Mechanism Data</title>','')
data = replace(data,'<script language="JavaScript">','')
data = replace(data,' </script>','')
data = replace(data,'</head>]','')
data = replace(data,'var gs_csv=','')
data = replace(data,'"','')
data = replace(data,"'",'')
data = data.strip()
file_location = 'c:/temp/'
file_name = file_location + 'DataExtract.txt'
file = open(file_name,"wb")
file.write(data)
file.close()
Копия HTML файл или ссылка на сайт поможет. В противном случае его угадывание в темноте :( –
@kread: Это в коде ;-) –