Краткое объяснение: У меня есть скрипт, который перемещается по элементам страницы, а затем возвращает данные. Но я хочу, чтобы он возвращал данные, которые не находятся в элементе, а в порядке.Получение данных из тегов (BeautifulSoup)
import argparse, os, socket, urllib2, re
from bs4 import BeautifulSoup
pge = urllib2.urlopen("").read()
src = BeautifulSoup(pge)
body = src.findAll('body')
el = body[0].findChildren()
for s in el:
cname = s.get('class')
if cname[0] == "work":
print s.text
HTML:
<body>
<div class="work">1</div>
<span class="nope">tosee</span>
<span class="work">2</span>
<span class="work">3</span>
4
<span class="work">5</span>
<span class="no">nothing</span>
</body>
Он печатает 1235 и пропускает на 4, но я хотел бы, чтобы напечатать 12345
То, что я вам дал, было плохим примером, пожалуйста, проверьте обновление. – user273324
В чем разница? Это все равно должно работать для вашего дела. – aIKid
Дело в том, что просто получите родительский тег, и все должно быть в порядке. – aIKid