Я использовал эту программу командной строки, которую я нашел в another post on SO, описывая, как паук веб-сайта.Как данные обрабатываются по трубам?
wget --spider --force-html -r -l2 http://example.com 2>&1 | grep '^--' | awk '{ print $3 }' | grep -v '\.\(css\|js\|png\|gif\|jpg\)$' > wget.out
Когда я выползаю большой сайт, это занимает много времени, чтобы закончить. Между тем файл wget.out на диске показывает нулевой размер. Итак, когда обрабатываемые данные передаются и записываются в файл на диске? Является ли это после того, как каждый этап в трубе заканчивается? В этом случае wget.out будет заполнен после завершения всего сканирования.
Как заставить программу записывать с перерывами на диск, чтобы, даже если этап сканирования был прерван, у меня есть какой-то вывод?
Возможный дубликат [Отключить буферизацию в трубе] (http://stackoverflow.com/questions/1000674/turn-off-buffering-in-pipe) – eumiro