Извлечение штрих-кода веб-страницы в App Engine с Async UrlFetch

Было много обсуждений по определению кодировки символов текстовых файлов и веб-страниц.Извлечение штрих-кода веб-страницы в App Engine с Async UrlFetch

Для веб-страниц кажется, что лучший/простой способ - использовать библиотеку, которая берет Url в качестве входа и возвращает правильно закодированную строку. Поскольку библиотека извлекает документ, он может использовать HTTP-заголовок, чтобы помочь определить кодировку.

Если мы хотим получать документы с помощью UrlFetch, а именно асинхронной апи, Что лучший подход, библиотека? для определения кодирования.

Существуют ли библиотеки, которые интегрируют (или могут легко модифицировать для интеграции) с помощью async urlfetch?

источник

2012-04-19 Nick Siderakis

С URLFetch вы получите HTTPResponse где вы можете использовать getHeaders(), чтобы получить list of headers. Посмотрите на Content-Type, для веб-страниц, это должно быть что-то вроде text/html; charset=UTF-8, где charset это ваш набор символов кодирования.

источник

2012-04-19 09:45:07

Извлечение штрих-кода веб-страницы в App Engine с Async UrlFetch

ответ

Смежные вопросы