я получил содержание страницы, как это:Получить содержание в неправильных выражений в PHP
<table width="100%" >
<!--Başla--><tr>
<td><a href="http://www.example.com/duyurular/2014/ekim/kutlama.html" class="duyuru1" target="_blank">• Kutlama
<br /><span class="hmk"> Authority 28.10.2014</span></td></tr><tr><td><hr /></td></tr><!--Son-->
<!--Başla--><tr>
<td><a href="http://www.example.com/duyurular/2014/ekim/genel-kurul.html" class="duyuru1" target="_blank">• Genel Kurul
<br /><span class="hmk"> Authority 28.10.2014</span></td></tr><tr><td><hr /></td></tr><!--Son-->
<!--Başla--><tr>
<td><a href="http://www.example.com/duyurular/2014/ekim/katilimci.pdf" class="duyuru1" target="_blank">• Katılımcı
<br /><span class="hmk"> Authority 22.10.2014</span></td></tr><tr><td><hr /></td></tr><!--Son-->
<!----duyuru başlangıc--->
<tr >
<td ><div align="right"><a href="http://www.example.com/arsiv/duyuru/index.html" target="_blank" class="hmk"><span class="style1">Duyuru Arşivi</span> </a></div>
<!-- Güncel Duyurular Bitişi-->
</td>
</tr>
</table>
Я хочу, чтобы получить http://www.example.com/duyurular/2014/ekim/kutlama.html
, http://www.example.com/duyurular/2014/ekim/genel-kurul.html
, http://www.example.com/duyurular/2014/ekim/katilimci.pdf
ссылки, Kutlama
, Genel Kurul
, Katılımcı
содержание ссылок, Authority
и dates
. Видите ли, нет стандартного html. Я пытался так:
$html = file_get_contents('http://www.example.com/duyurular/duyuru.asp');
$dom = new DOMDocument;
$dom->loadHTML($html);
$links = $dom->getElementsByTagName('a');
foreach ($links as $link){
$exp = explode($link->textContent, ' ');
$bag[] = '<a href="'.$link->getAttribute('href').'">'.$exp[0].'</a> ('.$exp[1].')';
}
foreach ($bag as $d)
echo $d.'<br />';
Конечно, мне не удалось. Не могли бы вы помочь мне?
Подсказка: '-> textContent' * никогда * с [HTML-сущностями] (http://dev.w3.org/html5/html-author/charref). – hakre