Я пытаюсь найти конкретное значение в ответ HTML с использованием библиотеки запросовСтрока поиска для конкретного значения =
import requests
while True:
url = 'https://www.example.com/'
page = requests.get(url, allow_redirects=True, verify=False)
var = page.content
значение, казалось бы, как словарь, но я не могу конвертировать весь ответ .content к dict, используя: var = dict (page.content), поскольку он дает ошибку "элемент последовательности обновления словаря # 0 имеет длину 1; требуется 2"
Я попытался использовать метод re.search, такой как это:
searchObj = re.search(r'(.*)id="X" value=(.*?) .*', var, re.M)
if searchObj:
print "search --> searchObj.group() : ", searchObj.group()
, но это не то, что я ищу - конечная цель состоит в том, чтобы найти конкретное значение в контенте, возвращенном из запроса веб-сайта, оно будет выглядеть примерно так: <input type="hidden" autocomplete="off" name="test" id="test" value="12345" />
- с данными, которые необходимо извлечь как значение = «12345» или более конкретно только 12345
заранее спасибо
Используйте beautifulsoup, найдите тег и извлеките атрибут –
Я действительно очень надеюсь, что вы либо владеете этим сайтом, либо разговариваете с владельцем, потому что, если вы не знаете, что делаете, и вы нажимаете эту страницу с бесконечным кто-то будет очень справедливо злиться на вас. –
@ Two-BitAlchemist, пока вы правы, что он не должен царапать страницу с бесконечным циклом без тайм-аута, это действительно не имеет значения. Большинство современных сайтов построены с помощью Apache или Nginx, и они закроют его соединение, если в течение короткого периода времени будет сделано слишком много попыток подключения. –