2009-10-15 3 views
0

Pse простите, что, скорее всего, глупый вопрос. Я успешно справился с примерами simplehtmldom и получил данные, которые я хочу с одной веб-страницы.Simplehtmldom - завитки, петли, массивы?

Я хочу, чтобы функция могла выполнять все страницы html в каталоге и извлекать данные. Я googled и googled, но теперь я смущен, как и в своем невежественном состоянии, я думал, что могу (каким-то образом) использовать PHP для формирования массива имен файлов в каталоге, но я борюсь с этим.

Также кажется, что многие примеры, которые я видел, используют завиток. Пожалуйста, кто-нибудь скажет мне, как это должно быть сделано. Есть значительное количество файлов. Я попытался объединить их, но это работает только с помощью редактора html - использование cat -> не работает.

ответ

0

Предполагая, что парсер, о котором вы говорите, работает нормально, вы должны создать простой www-паук. Посмотрите на все ссылки на веб-странице и создайте список «ссылок на сканирование». И сканируйте каждую из этих страниц ...

Вы должны позаботиться о круговых ссылках.

1

Возможно, вы захотите использовать glob('some/directory/*.html'); (manual page), чтобы получить список всех файлов в виде массива. Затем повторите это и используйте материал DOM для каждого имени файла.

Вам нужно всего лишь завиток, если вы тянете HTML с другого веб-сервера, если они хранятся на вашем веб-сервере, вы хотите glob().

+0

спасибо. Работает как шарм. Спасибо Спасибо спасибо. – 2009-10-16 08:41:48

Смежные вопросы