2014-08-31 3 views
-3

Я пытаюсь выяснить, что мне нужно добавить в этот код, поэтому после чтения источника URL я могу устранить все, кроме текста, который находится между тегами, а затем распечатать результатыНужен код для получения определенного текста из url

import urllib.request 

req = urllib.request.Request('http://myurlhere.com') 
response = urllib.request.urlopen(req) 
the_page = response.read() 
print (the_page) 

ответ

0

Вам понадобится HTML-анализатор.

Пример использования BeautifulSoup (он поддерживает Python-3.x):

import urllib.request 
from bs4 import BeautifulSoup 

req = urllib.request.Request('http://onlinepermits.co.escambia.fl.us/CitizenAccess/Cap/CapDetail.aspx?Module=Building&capID1=14ACC&capID2=00000&capID3=00386&agencyCode=ESCAMBIA') 
response = urllib.request.urlopen(req) 
soup = BeautifulSoup(response) 
print(soup.find('td', id='ctl00_PlaceHolderMain_PermitDetailList1_owner').div.table.text) 

Печать:

SNB HOTEL INC2607 WILDE LAKE BLVD PENSACOLA FL 32526 
+0

нормально хорошо я пытаюсь вытащить информацию с нескольких страниц, которые имеют титул владельца то после Владельца у него есть абзац, который мне нужно распечатать, это текст после того, как Владелец у него есть td-теги вокруг него. – shoka69

+0

@ shoka69, если вы включили в вопрос соответствующую часть HTML-кода - я бы предоставил вам решение (или бросил ссылку на сайт). – alecxe

+0

http://onlinepermits.co.escambia.fl.us/CitizenAccess/Cap/CapDetail.aspx?Module=Building&capID1=14ACC&capID2=00000&capID3=00386&agencyCode=ESCAMBIA, где указано Владелец – shoka69

Смежные вопросы