Я использую cURL в PHP, чтобы отказаться от веб-страницы. Некоторые из слов, которые мне нужны, - японские герои. Я также использую Simple DOM Parser, чтобы помочь мне легко разобрать исходный код. Я немного затрудняюсь выяснить, как правильно получить японские символы. Каждый раз, когда я запускаю следующий скрипт на своей странице, я получаю, что никаких данных не получено. Я думаю, что мне нужно каким-то образом преобразовать символы в стандарт UTF-8, но я не совсем уверен, как это сделать. Он хватает всех английских персонажей, даже отлично, поэтому я знаю, что скрипт действительно работает. Это просто не работает для других персонажей. Кто-нибудь думает, что они могут мне помочь? Я включил образец того, что выглядит исходный код, который я использую.Декодировать японские символы в строке php?
КОД:
$base = '{website url}';
$curl = curl_init();
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($curl, CURLOPT_HEADER, array('User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:19.0) Gecko/20100101 Firefox/19.0'));
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_URL, $base);
curl_setopt($curl, CURLOPT_REFERER, $base);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
$str = curl_exec($curl);
curl_close($curl);
// Create a DOM object
$html = new simple_html_dom();
// Load HTML from a string
$html->load($str);
foreach($html->find('div.holder') as $element){
if($element->find('div.img-small', 0)){
$title = '';
$image = '';
foreach($element->find('a[href]') as $tempElement){
if($tempElement->find('img')){
$image = $tempElement->find('img')->src;
} else {
$title = $tempElement->innertext;
}
}
echo $title.'<br/>';
}
}
ДАННЫЕ:
<div class="holder">
<div class="img-small">
<a href="/link/abcd"><img src="/images/image.png"></a>
</div>
<div>
<div>
<img title="This is a title" class="valign" src="/images/image.png"><b>
<a href="/link/1234abcd">{Japanese characters}</a>
</div>
</div>
</div>
Я слом информации с веб-сайта, так что я не могу модифицировать исходный код страницы. –