Я пытаюсь искать веб-страницы, используя регулярные выражения, но я получаю следующее сообщение об ошибке:Как обрабатывать кодирование ответа от urllib.request.urlopen()
TypeError: can't use a string pattern on a bytes-like object
Я понимаю, почему, URLLIB. request.urlopen() возвращает поток bytestream, и поэтому, по крайней мере, я предполагаю, re не знает кодировку. Что я должен делать в этой ситуации? Есть ли способ указать метод кодирования в urlrequest, может быть, мне нужно будет перекодировать строку самостоятельно? Если да, то что я хочу сделать, я полагаю, что я должен прочитать кодировку из информации заголовка или типа кодировки, если она указана в html, а затем перекодировать ее на это?
Спасибо, вот что мне нужно. – kryptobs2000
Что делать, если кодировка не является utf-8? Было бы лучшей идеей как-то определить это из ответа вместо жесткого кодирования этого предположения? –