Я знаю, что мы можем захватывать информацию (с php) с любого сайта и создавать собственные.Вопросы о разборе
Я говорю о разборе некоторого дополнительного контента, такого как информация о фильме (даты, бюджет, лица и т. Д.) Или свойства видеофайла с youtube (размер, продолжительность).
Я взволнован от реализации процесса захвата с больших сайтов и большого количества информации.
Кажется есть несколько проблем:
- Время выполнения скрипта. Кажется, мы можем сделать скрипт вращения, чтобы захватить все страницы от одного к другому и подталкивать контент к нашей базе mysql, но на большом количестве страниц время выполнения будет больше, чем обычный хостинг (обычно около 30 секунд), поэтому сценарий умрет в какой-то момент.
- Объем памяти. Сценарий будет много хранить во время разбора большого количества страниц.
- Antiddos? на локальном сайте (много запросов с одного IP-адреса).
Основная идея этого вопроса заключается в том, как обойти все эти камни и сделать ротационный скрипт (который может работать целый день) без ошибок.
Есть ли другие плохие новости, которые мы можем получить во время процесса?
Ваши мысли?
Воровство плохое – zerkms
Если вы собираетесь делать крупномасштабные веб-скребки, как вы, общие службы/хостинг, вероятно, не то, что вы хотите смотреть, так как будет много проблем. Кроме того, я бы, вероятно, посмотрел на использование чего-то, кроме php, для этого (perl/ruby приходят на ум) – Doon
@zerkms. Если вам нужна информация, например, дата рождения человека, вы не получите ее где-нибудь? Copypast или прямой синтаксический анализ - не имеет значения. С вашим ответом мы можем понять, что вы придумаете все даты. – James