2013-08-03 3 views
0

Название вопроса говорит обо всем, после нескольких попыток Google и нескольких дней возиться с кодом, я не могу понять, как загрузить простой текст веб-страницы.Загрузите только текстовую страницу

Использование strip_tags(); по-прежнему оставляет JavaScript и CSS и пытается очистить его регулярным выражением, также вызывает проблемы.

Есть ли какой-либо (простой или сложный) способ загрузить веб-страницу (например, статью в Википедии) в текстовом формате с использованием PHP?

Я загрузил страницу, используя РНР file_get_contents();, как здесь:

$homepage = file_get_contents('http://www.example.com/'); 

Как я уже сказал, я попытался с помощью strip_tags(); т.д., но я не могу получить простой текст.

Я попытался использовать: http://millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.php, чтобы получить основной контент, но он не работает.

+0

Пожалуйста, добавьте ваш код попробовал ... – ops

+0

@yonessafari подожди, Лемм получить его и отправить его. – user115422

+0

Как вы загружали содержимое страницы? –

ответ

1

Используйте этот код:

require_once('simple_html_dom.php'); 
$content=file_get_html('http://en.wikipedia.org/wiki/FYI'); 
$title=$content->find("#firstHeading",0)->plaintext ; 
$text=$content->find("#bodyContent",0)->plaintext; 
echo $title.$text; 

http://simplehtmldom.sourceforge.net

+0

Я пробовал http://millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.php, от чего я могу работать? Экстрактор не работает для меня. – user115422

+0

Отредактировано сообщение. ;) – ops

+0

Я дам ему шанс, спасибо! – user115422

2

Это не так просто, как кажется. Я бы рекомендовал посмотреть что-то вроде PHP Simple HTML DOM Parser. Помимо того, что JavaScript и CSS трудно удалить (и используя RegEx for HTML is not proper), все еще может быть встроенный стиль и тому подобное.

Это, конечно же, относительно сложности HTML. strip_tags может быть достаточным в некоторых случаях.

+0

У меня была та же самая ссылка в поле ответа и вот-вот нажмите Enter. Излишне говорить, что я согласен с этим ответом. – theftprevention

+0

Правильно, это имеет смысл, обычно это место, где я догоняю. Но не простой HTML DOM Parser способ манипулировать элементами? Как извлечь весь контент, который пользователь видит на веб-странице, и сохранить его в переменной. Я попробовал другой плагин, если вы хотите, чтобы я добавил его к моему вопросу. Спасибо за ответ! – user115422

+0

@ user115422 Я _think_, что вы ищете, является эхом: file_get_html ('http://www.example.com') -> plaintext; '. (Конечно, используя [Простой HTML DOM Parser] (http://simplehtmldom.sourceforge.net/)). – federicot

Смежные вопросы