Я пытаюсь разобрать html-страницу Google play
и получить некоторую информацию о приложениях. Simple-html-dom работает отлично, но если страница содержит код без пробелов, он полностью использует атрибуты. Например, у меня есть HTML-код:Simple-html-dom пропускает атрибуты
<div class="doc-banner-icon"><img itemprop="image"src="https://lh5.ggpht.com/iRd4LyD13y5hdAkpGRSb0PWwFrfU8qfswGNY2wWYw9z9hcyYfhU9uVbmhJ1uqU7vbfw=w124"/></div>
Как вы можете видеть, нет никаких пробелов между image
и src
, так простой HTML-дом игнорирует src
атрибут и возвращает только <img itemprop="image">
. Если я добавлю место, он отлично работает. Чтобы получить этот атрибут, я использую следующий код:
foreach($html->find('div.doc-banner-icon') as $e){
foreach($e->find('img') as $i){
$bannerIcon = $i->src;
}
}
Мой вопрос заключается в том, как изменить эту прекрасную библиотеку, чтобы получить полный внутренний текст этого div
?
Вместо простого HTML Dom Parser вы можете использовать [DOMDocument PHP] (http://php.net/manual/en/class.domdocument.php). В противном случае просто просмотрите этот фрагмент по адресу http://codepad.org/HdUQKx3l, просто загрузив и сохранив HTML через DOMDocument, добавьте пробелы, которые вам нужны в Simple HTML Dom Parser. –