Вы можете разобрать определенный сайт, используя Beautifulsoup
и urllib2
. Вот реализация python для данных, которые вы хотели разобрать или очистить в соответствии с фильтром, который вы написали.
from BeautifulSoup import BeautifulSoup
import urllib2
def main1(website):
data_list = []
web =urllib2.urlopen(website).read()
soup = BeautifulSoup(web)
description = soup.findAll('a', attrs={'rel':'nofollow'})
for de in description:
data_list.append(de.text)
return data_list
print main1("http://www.quoka.de/immobilien/bueros-gewerbeflaechen")
Если вы хотите, чтобы проанализировать другие данные, например, описание из следующих функций:
def main(website):
data_list = []
web =urllib2.urlopen(website).read()
soup = BeautifulSoup(web)
description = soup.findAll('div', attrs={'class':'description'})
for de in description:
data_list.append(de.text)
return data_list
print main("http://www.quoka.de/immobilien/bueros-gewerbeflaechen") #this is the data of each section
Примите мой ответ, если он решит ваш вопрос. Пожалуйста, не используйте комментарии для публикации новых вопросов, но создайте новый вопрос и покажите код, и что вы ожидаете, и что получите. См. [Ask] для получения дополнительной информации. –