2012-04-19 2 views
0

Было много обсуждений по определению кодировки символов текстовых файлов и веб-страниц.Извлечение штрих-кода веб-страницы в App Engine с Async UrlFetch

Для веб-страниц кажется, что лучший/простой способ - использовать библиотеку, которая берет Url в качестве входа и возвращает правильно закодированную строку. Поскольку библиотека извлекает документ, он может использовать HTTP-заголовок, чтобы помочь определить кодировку.

  1. http://htmlcleaner.sourceforge.net/download.
  2. How do you Programmatically Download a Webpage in Java
  3. character encoding in a web page using java
  4. http://docs.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html

Если мы хотим получать документы с помощью UrlFetch, а именно асинхронной апи, Что лучший подход, библиотека? для определения кодирования.

Существуют ли библиотеки, которые интегрируют (или могут легко модифицировать для интеграции) с помощью async urlfetch?

ответ

0

С URLFetch вы получите HTTPResponse где вы можете использовать getHeaders(), чтобы получить list of headers. Посмотрите на Content-Type, для веб-страниц, это должно быть что-то вроде text/html; charset=UTF-8, где charset это ваш набор символов кодирования.

Смежные вопросы