2012-06-14 7 views
0

То, что я пытаюсь сделать, это извлечь текст с сайта (без авторских прав). Мне нужен только текст внутри определенного div. Скажем, div называется «foo». На каждой странице есть около 20 «foo divs», и я хотел бы извлечь текст из каждого из них и вывести на страницу или извне в текст, это не имеет значения.Извлечь текст из нескольких div одного и того же имени

Выполнение нескольких страниц сразу определенно будет бонусом.

Я прочитал вопрос на этом сайте Extract text from a DIV that occurs on multiple pages on a website, then output to .txt?

Кажется, подобное тому, что я прошу, если не идентичны. Не уверен, что этот файл будет извлекаться из нескольких div одного и того же имени на одной странице.

Я пробовал копировать и вставлять весь код в новый .php-файл, и он не работал. Я получил сообщения об ошибках работают :(

я сделал HTML в течение нескольких лет, когда я был моложе, но мои навыки PHP очень простые.

Кроме того, мне не нужен скрипт для обхода или что-нибудь , просто царапать информацию. Если есть возможность для нескольких URL-адресов, я хотел бы, чтобы ввести их вручную.

Благодаря

+0

Вы должны размещать сообщения об ошибках, которые вы получили. –

+0

Возможно, сайты, на которые вы хотите получить информацию, имеют службы RSS/REST? – Gntem

ответ

0

что вы имеете в виду foo div? Если вы имеете в виду, что значение name атрибута DIV является foo вы можете использовать SIMPLE HTML DOM PARSER, чтобы легко получить это с помощью запроса l Айк.

$ret = $html->find('div[name=foo]');

Затем вы могли перебирать эти результаты хранить их там, где вы чувствуете соотвествующими. Если вы запускаете скрипт вручную, вероятно, было бы неплохо написать эти результаты прямо в файл?

Простая ссылка парсера дома выше дает вам шаг за шагом о том, как очистить сайт.

Для нас, чтобы помочь вам, лучше всего, если вы публикуете свой код и точные ошибки, то чем больше информации вы дадите, тем лучше вы получите ответы. Если вы надеетесь, что SO напишет сценарий для вас, который анализирует веб-страницы, вы, вероятно, будете разочарованы.

0

Я думаю, что эти ссылки могут иметь некоторую помощь Вам о HTML DOM PARSING в PHP

Quick Start
How to create HTML DOM object?
How to find HTML elements?
How to access the HTML element's attributes?
How to traverse the DOM tree?
How to dump contents of DOM object?
How to customize the parsing behavior?
API Reference
FAQ

и здесь пример для соскабливания с сайта образца (www.slashdot.org)

// Create DOM from URL 
$html = file_get_html('http://slashdot.org/'); 

// Find all article blocks 
foreach($html->find('div.article') as $article) { 
    $item['title']  = $article->find('div.title', 0)->plaintext; 
    $item['intro'] = $article->find('div.intro', 0)->plaintext; 
    $item['details'] = $article->find('div.details', 0)->plaintext; 
    $articles[] = $item; 
} 

print_r($articles); 
Смежные вопросы