Я пишу паук в Python для сканирования сайта. Проблема в том, что мне нужно исследовать около 2,5 миллионов страниц, поэтому я действительно могу использовать некоторую помощь, чтобы оптимизировать ее скорость.Написание более быстрого Python Spider
Что мне нужно сделать, это проверить страницы на определенное число, и если будет найдена запись ссылки на страницу. Паук очень прост, ему просто нужно сортировать много страниц.
Я совершенно не знаком с Python, но раньше использовал Java и C++. Я еще не начал его кодировать, поэтому любые рекомендации по включению библиотек или фреймворков были бы замечательными. Любые советы по оптимизации также приветствуются.
Лучше всего сделать процесс быстрее, чтобы улучшить скорость вашего соединения. Это будет вашим узким местом, а не скоростью Python. – tzot