2013-04-03 4 views
-1

международные HTML файлы, заархивированные с помощью Wget должен содержать символы, как этот.ENCODING международные символы (иврит, тайский, русский, китайский, ....)

(например, иврит и тайский :) אב הם и ย คน

вместо этого они будут сохранены, как это: íäáåãéú и ÃÒ¡à§é

Как правильно их отобразить?

Iconv filename.html Iconv: недопустимая входная последовательность в позиции 1254

Решенных: Там не было ничего плохого. Только я не заметил значение по умолчанию php.ini действительно установил кодировку в заголовке http, но , чтобы использовать различные кодировки, подобные этому meta http-equiv = "Content-Type" content = "text/html; charset = windows- 874 " вам необходимо установить: default_charset =" empty "; ....

ответ

1

Страницы не «сохранены как это», все, что вы используете для просмотра файла, просто неверно интерпретирует кодировку. Чтобы узнать, в какой кодировке находится файл, вы должны обратить внимание на заголовок HTTP Content-Type во время загрузки; это уже исчезло.
Ваш единственный шанс - проанализировать эквивалентный метатег HTML в <head>, , если в документе есть один.

В противном случае вы можете только угадать кодировку документа.

См. What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text для получения более точного знания фона.

Смежные вопросы