2013-10-10 5 views
1

Я использую cURL в PHP, чтобы отказаться от веб-страницы. Некоторые из слов, которые мне нужны, - японские герои. Я также использую Simple DOM Parser, чтобы помочь мне легко разобрать исходный код. Я немного затрудняюсь выяснить, как правильно получить японские символы. Каждый раз, когда я запускаю следующий скрипт на своей странице, я получаю, что никаких данных не получено. Я думаю, что мне нужно каким-то образом преобразовать символы в стандарт UTF-8, но я не совсем уверен, как это сделать. Он хватает всех английских персонажей, даже отлично, поэтому я знаю, что скрипт действительно работает. Это просто не работает для других персонажей. Кто-нибудь думает, что они могут мне помочь? Я включил образец того, что выглядит исходный код, который я использую.Декодировать японские символы в строке php?

КОД:

 $base = '{website url}'; 

     $curl = curl_init(); 
     curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE); 
     curl_setopt($curl, CURLOPT_HEADER, array('User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:19.0) Gecko/20100101 Firefox/19.0')); 
     curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true); 
     curl_setopt($curl, CURLOPT_URL, $base); 
     curl_setopt($curl, CURLOPT_REFERER, $base); 
     curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE); 
     $str = curl_exec($curl); 
     curl_close($curl); 

     // Create a DOM object 
     $html = new simple_html_dom(); 
     // Load HTML from a string 
     $html->load($str); 

     foreach($html->find('div.holder') as $element){ 
      if($element->find('div.img-small', 0)){ 

       $title = ''; 
       $image = ''; 

       foreach($element->find('a[href]') as $tempElement){ 
        if($tempElement->find('img')){ 
         $image = $tempElement->find('img')->src; 
        } else { 
         $title = $tempElement->innertext; 

        } 
       } 

       echo $title.'<br/>'; 





      }  
     } 

ДАННЫЕ:

<div class="holder"> 
    <div class="img-small"> 
     <a href="/link/abcd"><img src="/images/image.png"></a> 
    </div> 

    <div> 
     <div> 
      <img title="This is a title" class="valign" src="/images/image.png"><b> 
       <a href="/link/1234abcd">{Japanese characters}</a> 
     </div>   
    </div> 
</div> 

ответ

0

Надень это начало страницы

<head> 
<META http-equiv="Content-Type" Content="text/html; charset=euc-jp"> 
</head> 
+0

Я слом информации с веб-сайта, так что я не могу модифицировать исходный код страницы. –

Смежные вопросы