синтаксический анализ китайской страницы с помощью PHP

Я хотел бы извлечь некоторую информацию с китайской страницы.синтаксический анализ китайской страницы с помощью PHP

страница источника кодируются с содержания = "текст/html; кодировка = gb2312"

Можно ли сделать "универсальный" utf8 "переводчик" с кодировкой (utf8, ISO, GB .. .)?

Я стараюсь это, но он не работает с китайским:

[...] 

$return = curl_exec($curl); 

if (!mb_check_encoding($return, 'UTF-8')) { 
    $return = utf8_encode($return); 
}

Благодаря

источник

2014-04-30 Paul

utf8_encode только переходит из ISO-8859-1, так бесполезно для вашей цели. iconv больше подходит для преобразования от одного кодирования к другому, если вы знаете исходную кодировку.

Используйте его так:

echo iconv('GB2312', 'UTF-8', $return);

источник

2014-05-02 22:00:01

А если я не знаю, что кодируется в GB2312? Возможно ли правильно закодировать строку в UTF8? – Paul

'mb_detect_encoding' может использоваться для поиска исходной кодировки. Он никогда не может быть на 100% точным, но может быть достаточно хорошим, особенно при использовании GB2312 –

синтаксический анализ китайской страницы с помощью PHP

ответ

Смежные вопросы