2015-06-12 2 views
-1

http://www.baseball-reference.com/players/split.cgi?id=aardsda01&year=2015&t=pзахватные текстовые данные из Бейсбольных эталонного Python

Я хотел бы получить данные о том, что руке этого кувшина смол с. Если бы это была таблица, я мог бы захватить данные, но я не знаю, как получить текст.

David Aardsma \ARDS-mah\ 

David Allan Aardsma (twitter: @TheDA53) 

Position: Pitcher 
Bats: Right, Throws: Right 
Height: 6' 3", Weight: 220 lb. 

Текст выглядит следующим образом. Я хочу получить все после Throws:.

ответ

2

Если вы должны были решить с BeautifulSoup, вы нашли бы b тег текстом Throws: и получить following sibling:

>>> from urllib2 import urlopen 
>>> from bs4 import BeautifulSoup 
>>> 
>>> url = "http://www.baseball-reference.com/players/split.cgi?id=aardsda01&year=2015&t=p" 
>>> soup = BeautifulSoup(urlopen(url)) 
>>> soup.find("b", text='Throws:').next_sibling.strip() 
u'Right' 
+0

Это так чисто! Отлично сработано. Для полноты нам нужен «import re», но, возможно, это очевидно – Omega

+0

@JoeSparacino благодарит, на самом деле, мы можем использовать точное совпадение здесь, не нужно «re', отредактировано. – alecxe

Смежные вопросы