2016-09-20 3 views
4

В прошлом году я написал сеялку базы данных, которая сбрасывает сайт статистики. Пересматривая мой код, он больше не работает, и я немного недооцениваю причину. Ожидается, что $html->find() вернет массив найденных элементов, однако, похоже, он только находит первую таблицу при ее использовании.Поиск таблиц по идентификатору с использованием простого HTML DOM Parser

В соответствии с документацией я вместо этого попытался использовать find() и указать идентификатор каждой таблицы, однако это также похоже на ошибку.

$table_passing = $html->find('table[id=passing]'); 

Может ли кто-нибудь помочь мне выяснить, что здесь не так? Я не понимаю, почему ни один из этих методов не работает, где источник страницы четко показывает несколько таблиц и идентификаторов, где оба подхода должны работать.

private function getTeamStats() 
{ 
    $url = 'http://www.pro-football-reference.com/years/2016/opp.htm'; 
    $html = file_get_html($url); 

    $tables = $html->find('table'); 

    $table_defense = $tables[0]; 
    $table_passing = $tables[1]; 
    $table_rushing = $tables[2]; 

    //$table_passing = $html->find('table[id=passing]'); 

    $teams = array(); 

    # OVERALL DEFENSIVE STATISTICS # 
    foreach ($table_defense->find('tr') as $row) 
    { 
     $stats = $row->find('td'); 

     // Ignore the lines that don't have ranks, these aren't teams 
     if (isset($stats[0]) && !empty($stats[0]->plaintext)) 
     { 
      $name = $stats[1]->plaintext; 
      $rank = $stats[0]->plaintext; 
      $games = $stats[2]->plaintext; 
      $yards = $stats[4]->plaintext; 

      // Calculate the Yards Allowed per Game by dividing Total/Games 
      $tydag = $yards/$games; 

      $teams[$name]['rank'] = $rank; 
      $teams[$name]['games'] = $games; 
      $teams[$name]['tydag'] = $tydag; 
     } 
    } 

    # PASSING DEFENSIVE STATISTICS # 
    foreach ($table_passing->find('tr') as $row) 
    { 
     $stats = $row->find('td'); 

     // Ignore the lines that don't have ranks, these aren't teams 
     if (isset($stats[0]) && !empty($stats[0]->plaintext)) 
     { 
      $name = $stats[1]->plaintext; 
      $pass_rank = $stats[0]->plaintext; 
      $pass_yards = $stats[14]->plaintext; 

      $teams[$name]['pass_rank'] = $pass_rank; 
      $teams[$name]['paydag'] = $pass_yards; 
     } 
    } 

    # RUSHING DEFENSIVE STATISTICS # 
    foreach ($table_rushing->find('tr') as $row) 
    { 
     $stats = $row->find('td'); 

     // Ignore the lines that don't have ranks, these aren't teams 
     if (isset($stats[0]) && !empty($stats[0]->plaintext)) 
     { 
      $name = $stats[1]->plaintext; 
      $rush_rank = $stats[0]->plaintext; 
      $rush_yards = $stats[7]->plaintext; 

      $teams[$name]['rush_rank'] = $rush_rank; 
      $teams[$name]['ruydag'] = $rush_yards; 
     } 
    } 

ответ

1

Я никогда не использую simplexml или другие производные, но при использовании XPath запрос, чтобы найти атрибут, такие как ID обычно один бы префикс @ и значение должно быть заключено в кавычки - так для вашего случая это может быть

$table_passing = $html->find('table[@id="passing"]'); 

Использование стандартного DOMDocument & DOMXPath подходить к вопросу, что фактический стол был в исходном коде "commented out" - так простой замены строки из HTML комментарии позволили работать следующим образом: это можно легко адаптировать к исходному коду.

$url='http://www.pro-football-reference.com/years/2016/opp.htm'; 

$html=file_get_contents($url); 
/* remove the html comments */ 
$html=str_replace(array('<!--','-->'), '', $html); 

libxml_use_internal_errors(true); 
$dom=new DOMDocument; 
$dom->validateOnParse=false; 
$dom->standalone=true; 
$dom->strictErrorChecking=false; 
$dom->recover=true; 
$dom->formatOutput=false; 
$dom->loadHTML($html); 
libxml_clear_errors(); 



$xp=new DOMXPath($dom); 
$tbl=$xp->query('//table[@id="passing"]'); 

foreach($tbl as $n)echo $n->tagName.' > '.$n->getAttribute('id'); 

/* outputs */ 
table > passing 
+0

Благодарим за информацию. К сожалению, я пробовал это без везения, где он все еще возвращает пустой массив. Документация Simple HTML Dom Parser (хотя и редкая) показывает это точно так, как показано в моем коде, почему я так запутался, что оба метода не работают. –

+0

Я думаю, что вижу проблему: таблица, которую вы пытаетесь найти, находится в html-комментариях – RamRaider

+0

Я полностью пропустил, что они были прокомментированы, спасибо вам большое! –

Смежные вопросы