Я пытаюсь извлечь содержимое html изнутри веб-сайта. Я хочу только содержимое внутри тегов.получить содержимое внутри html не работает
//$validLink is a link with .htm extension, source code is rather large
//contains 24,000 lines of html code
$thehtml = file_get_contents($validlink);
$thehtml = preg_match("/<body.*?>(.*?)<\/body>/is", $thehtml);
Что еще я могу сделать? $ thehtml пуст .... Я пытаюсь вставить это в сообщение Wordpress ... но $ thehtml пуст ... по какой-то нечетной причине. Есть ли возможная проблема с тайм-аутом или что-то в этом роде ???
Не может быть проблемы с таймаутом ..... из-за того, что я заметил, что если я выведу только файл_get_contents ($ validlink); по какой-то причине BODY не найден .....
Другим возможным решением было бы просто получить содержимое между первым DIV и последним ДИВ найти в документе ....
Используйте DOM-парсер, а не регулярное выражение, для извлечения информации из HTML. – Barmar