2016-09-19 3 views
2

Может кто-нибудь объяснить, почему потоки не работают в многопроцессорной обработке.Python, используя потоки с многопроцессорной обработкой

Я приложил несколько примеров, чтобы объяснить мою проблему.

У меня есть процесс, который выполняется каждую секунду и записывается в файл. Когда я запускаю его из оболочки, он работает так, как ожидалось.

stat_collect.py

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 

from threading import Timer 
from os import path 
from datetime import datetime 

STAT_DATETIME_FMT = '%Y-%m-%d %H:%M:%S' 


def collect_statistics(): 
    my_file = 'test.file' 
    if not path.exists(my_file): 
     with open(my_file, 'w') as fp: 
      fp.write(datetime.now().strftime(STAT_DATETIME_FMT) + '\n') 
    else: 
     with open(my_file, 'a') as fp: 
      fp.write(datetime.now().strftime(STAT_DATETIME_FMT) + '\n') 

    Timer(1, collect_statistics).start() 


if __name__ == '__main__': 
    collect_statistics() 

Когда я пытаюсь запустить его из другого сценария (для работы в фоновом режиме):

#!/usr/bin/env python 

from multiprocessing import Process 
from stat_collect import collect_statistics # logger sc 

if __name__ == '__main__': 
    # This don't work 
    p = Process(target=collect_statistics) 
    p.start() 

    while True: 
     pass 

Метод collect_statistics выполняется только один раз, но если я использую тему (target = collect_statistics) .start() работает так, как будто я запускаю его из оболочки. Почему это происходит?

ответ

1

Вот что происходит:

  1. Вы начинаете ваш процесс
  2. collect_statistics работает
  3. Таймер запускается
  4. теперь функция вызывается в процессе (collect_statistics) закончена, поэтому процесс уходит, убивая таймер в одно и то же время.

Вот как это исправить:

stat_collect.py

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 

from threading import Timer 
from os import path 
from datetime import datetime 
import time 

STAT_DATETIME_FMT = '%Y-%m-%d %H:%M:%S' 


def collect_statistics(): 
    while True: 
     my_file = 'test.file' 
     if not path.exists(my_file): 
      with open(my_file, 'w') as fp: 
       fp.write(datetime.now().strftime(STAT_DATETIME_FMT) + '\n') 
     else: 
      with open(my_file, 'a') as fp: 
       fp.write(datetime.now().strftime(STAT_DATETIME_FMT) + '\n') 

     time.sleep(1) 


if __name__ == '__main__': 
    collect_statistics() 

И для вызова скрипта:

#!/usr/bin/env python 

from multiprocessing import Process 
from stat_collect import collect_statistics # logger sc 

if __name__ == '__main__': 
    # This don't work 
    p = Process(target=collect_statistics) 
    p.start() 
    p.join() # wait until process is over, e.g forever 

p.join() только здесь, чтобы заменить вас бесконечное в то время как цикл, который забирает много ресурсов для ничего.

+0

Итак, вызов процесса не совпадает с запуском stat_collect.py из командной строки? И почему Таймер убивает при запуске из процесса и не убивает при запуске скрипта из командной строки? – Ilya

+0

Вы должны посмотреть на [GIL] python (http://www.dabeaz.com/python/UnderstandingGIL.pdf). В основном в Python, 2 процесса вообще не общаются друг с другом. Запуск из командной строки запускает ваш код в одном процессе, а все переменные («Таймер») «разделяются». Запуск внутри другого процесса создает родительский процесс (вызывающий скрипт) и дочерний процесс (созданный с помощью 'p = Process (...)'). Родительский процесс не сообщает ребенку и не знает, что запущен другой поток. – CoMartel

Смежные вопросы