Было много обсуждений по определению кодировки символов текстовых файлов и веб-страниц.Извлечение штрих-кода веб-страницы в App Engine с Async UrlFetch
Для веб-страниц кажется, что лучший/простой способ - использовать библиотеку, которая берет Url в качестве входа и возвращает правильно закодированную строку. Поскольку библиотека извлекает документ, он может использовать HTTP-заголовок, чтобы помочь определить кодировку.
- http://htmlcleaner.sourceforge.net/download.
- How do you Programmatically Download a Webpage in Java
- character encoding in a web page using java
- http://docs.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html
Если мы хотим получать документы с помощью UrlFetch, а именно асинхронной апи, Что лучший подход, библиотека? для определения кодирования.
Существуют ли библиотеки, которые интегрируют (или могут легко модифицировать для интеграции) с помощью async urlfetch?