2015-10-19 3 views
0

У меня есть многопроцессорный скрипт python для загрузки данных из текстовых файлов в cassandra. Процесс делает вставки около 20-30мин, но затем я получаю эту ошибку:cassandra python data load loss connection

Traceback (most recent call last): 
    File "multiCass.py", line 38, in <module> 
    mp_handler(file_data, N_Proc) 
    File "multiCass.py", line 24, in mp_handler 
    p.map(mp_worker, inputData, chunksize=1) 
    File "/usr/lib64/python2.6/multiprocessing/pool.py", line 148, in map 
    return self.map_async(func, iterable, chunksize).get() 
    File "/usr/lib64/python2.6/multiprocessing/pool.py", line 422, in get 
    raise self._value 
cassandra.cluster.NoHostAvailable: ('Unable to connect to any servers', {'10.205.111.43': OperationTimedOut('errors=errors=None, last_host=None, last_host=None',)}) 

почему она работает на 20-30мин, а затем откидывает эту ошибку?

ответ

2

Эта ошибка предполагает, что вы перегружаете свой кластер C *. Если вы смотрите в своих журналах, вы можете увидеть длинный GC одновременно с ошибкой. Если C * полностью опустится на эту машину после сообщения об ошибке, вы захотите проверить системные журналы на наличие какой-либо ошибки, из-за которой система отключится.

Попробуйте уменьшить количество вставок, если их связанная с GC пауза останавливает вставки.

+0

кластер не отключается ... он все еще кажется ... как я зажимаю вставки линии? – user2061886

+0

Вы можете приостановить каждые строки x Ограничить свой параллелизм Действительно все, что мешает вам отправлять столько запросов в секунду – RussS