Мне нужно сделать много веб-изображений из доменов, хранящихся в TXT-файле (размер около 50 МБ).Распараллеливать обработку огромного списка
Я хочу сделать это многопоточным. Поэтому я загружаю несколько записей в список Python и обрабатываю каждый поток.
Пример:
biglist = ['google.com','facebook.com','apple.com']
threads = [threading.Thread(target=fetch_url, args=(chuck,))
for domain in biglist]
for thread in threads:
thread.start()
for thread in threads:
thread.join()
Это работает, но мне кажется, что это не очень эффективно, так как есть много использования памяти, и это занимает много времени, чтобы закончить.
Какие лучшие способы достичь того, что я делаю?
Это много потоков за раз. Используйте реалистичный размер chunck ('<2 * cpu') или пул потоков – UmNyobe