Я пытаюсь получить самые горячие обои от Reddit's wallpaper subreddit. Я использую beautiful soup
, чтобы получить HTML
расположение первых обоев А затем regex
, чтобы получить URL
из метки привязки. Но чаще, чем часто, я получаю URL-адрес, который не соответствует моему регулярному выражению. Вот код, который я использую:Получение лучших обоев от reddit
r = requests.get("https://www.reddit.com/r/wallpapers")
if r.status_code == 200:
print r.status_code
text = r.text
soup = BeautifulSoup(text, "html.parser")
search_string = str(soup.find('a', {'class':'title'}))
photo_url = str(re.search('[htps:/]{7,8}[a-zA-Z0-9._/:.]+[a-zA-Z0-9./:.-]+', search_string).group())
Есть ли способ обойти его?
ли добавляющим '.json' на другой' subreddits' 'URL также возвращает объект json? –
@Hodor Да, это так. На всех 'subreddits'. – Jarwin