получить содержимое внутри html не работает

Я пытаюсь извлечь содержимое html изнутри веб-сайта. Я хочу только содержимое внутри тегов.получить содержимое внутри html не работает

//$validLink is a link with .htm extension, source code is rather large 
    //contains 24,000 lines of html code 

    $thehtml = file_get_contents($validlink); 
    $thehtml = preg_match("/<body.*?>(.*?)<\/body>/is", $thehtml);

Что еще я могу сделать? $ thehtml пуст .... Я пытаюсь вставить это в сообщение Wordpress ... но $ thehtml пуст ... по какой-то нечетной причине. Есть ли возможная проблема с тайм-аутом или что-то в этом роде ???

Не может быть проблемы с таймаутом ..... из-за того, что я заметил, что если я выведу только файл_get_contents ($ validlink); по какой-то причине BODY не найден .....

Другим возможным решением было бы просто получить содержимое между первым DIV и последним ДИВ найти в документе ....

источник

2013-04-23 John

Используйте DOM-парсер, а не регулярное выражение, для извлечения информации из HTML. – Barmar

получить позицию строки используя 'StrPos() обоих тегов начала и окончания затем использовать вспомогательный метод струна т.е. SubStr() с этим позиции

источник

2013-04-23 05:26:20 deepi

Спасибо, что я смог сделать слово и использовать substr() и strpos() и т. Д. – John

$thehtml = file_get_contents($validlink); 
$thehtml = preg_match("/<body.*?>(.*?)<\/body>/is", $thehtml,$matches); 
$thehtml = $matches[0];

источник

2013-04-23 05:47:15 Amir

Вот правильный код:

$thehtml = file_get_contents($validlink); 
preg_match('/<body.*?>(.*?)<\/body>/is', $thehtml, $matches); 
$thehtml = $matches[1];

Bu Я предлагаю вам вместо этого использовать DOM parser.

источник

2013-04-23 05:53:31 Randle392

как бы вы это сделали с DOM Parser? $ thehtml = file_get_contents ($ validlink); $ dumphtml = $ thehtml-> find ('body') -> внутренний текст; ??? – John

получить содержимое внутри html не работает

ответ

Смежные вопросы