У меня вопрос о чтении HTML-файла из файлов данных и анализе данных, извлечении чисел и вычислении суммы чисел в файле.Скребковые номера из HTML с помощью BeautifulSoup
Вот код
from BeautifulSoup import *
import socket
mysock=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
mysock.connect(('python-data.dr-chuck.net',80))
mysock.send('GET http://python-data.dr-chuck.net/comments_42.html HTTP/1.0\n\n')
while True:
data = mysock.recv(512000)
if (len(data) < 1) :
break
print data
mysock.close()
data2=BeautifulSoup(data)
tags=data2('a')
sum=0
for line in tags:
a=line.get('span',None)
sum+=int(a.text)
print sum
Но я получаю следующее сообщение об ошибке
C:\Users\Dhruv>miscbeautifulsoup.py
HTTP/1.1 400 Bad Request
Date: Sun, 26 Jun 2016 05:14:31 GMT
Content-Type: text/html
Content-Length: 177
Connection: close
Server: -nginx
CF-RAY: -
<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>cloudflare-nginx</center>
</body>
</html>
Я не понимаю, почему я получаю сообщение об ошибке, и, хотя я использовал HTTP 1.0 ошибочное это упомянутый HTTP 1.1 , пожалуйста, помогите мне понять код ошибки.
Есть ли причина, по которой вы используете сокеты вместо [urllib] (https://docs.python.org/2/library/urllib2.html) или [запросы] (https: //pypi.python. орг/PyPI/запросы)? –