Мне нужно очистить около 100 сайтов, которые очень похожи в содержимом, которое они предоставляют.Методы Webscraping с использованием PHP или Python
Мое первое сомнение. Должна быть возможность писать общий скрипт, чтобы очистить все 100 веб-сайтов или методы скремблирования, возможно только для написания сценариев для определенных сайтов. (Дурацкий вопрос.). Думаю, я должен спросить, какая возможность проще. Написание 100 различных сценариев для каждого сайта сложно.
Второй вопрос. Мой основной язык - это PHP, но после поиска здесь в Stackoverflow я обнаружил, что одним из самых современных скребок является «Beautiful Soup» в Python. Должны ли быть возможными вызовы на PHP в «Beautiful Soup» в Python? Или должно быть лучше сделать весь скрипт в Python?
Дайте мне некоторые подсказки о том, как мне идти.
Извините за слабый английский.
С наилучшими пожеланиями,
Python not Phyton – Unode
Python будет отличным дополнением к вашему поясу инструмента, может даже улучшить способ написания PHP. Если скрипт будет работать от crontab, Python - хороший выбор - также посмотрите на SqlSoup для доступа к базе данных. –
Вы имеете в виду «BeautifulSoup» в своем посте, я подозреваю, что не «Красивое мыло», –