Улучшение скорости скрипта python

У меня есть входной файл со списком строк.Улучшение скорости скрипта python

Я повторяю каждую четвертую строку, начиная со строки два.

С каждой из этих строк я делаю новую строку из первого и последнего 6 символов и помещаю ее в выходной файл, только если эта новая строка уникальна.

Код, который я написал для этого, но я работаю с очень большими файлами секвенсирования и работает в течение дня и не добился большого прогресса. Поэтому я ищу любые предложения, чтобы сделать это намного быстрее, если это возможно. Благодарю.

def method(): 
    target = open(output_file, 'w') 

    with open(input_file, 'r') as f: 
     lineCharsList = [] 

     for line in f: 
      #Make string from first and last 6 characters of a line 
      lineChars = line[0:6]+line[145:151] 

      if not (lineChars in lineCharsList): 
       lineCharsList.append(lineChars) 

       target.write(lineChars + '\n') #If string is unique, write to output file 

      for skip in range(3): #Used to step through four lines at a time 
       try: 
        check = line #Check for additional lines in file 
        next(f) 
       except StopIteration: 
        break 
    target.close()

источник

2015-07-09 The Nightman

Я предполагаю, что проблема заключается в том, что когда-то линияCharsList становится большой, сценарий будет очень медленным. У меня нет никаких предложений, но это, вероятно, проблема. – Loocid

Вот что я тоже думаю. ОЗУ не должно быть проблемой, поскольку я работаю над вычислительным кластером с большим запасом. Но я не уверен, что есть лучший способ сделать это, чем просто хранить все в списке, подобном этому. –

В качестве стороннего варианта вы можете включить выходной файл в '' 'with'''' '' 'с открытым (input_file, 'r') как f, open (output_file, 'w') в качестве цели:' ' '. – wwii

Попробуйте определения lineCharsList как set вместо списка:

lineCharsList = set() 
... 
lineCharsList.add(lineChars)

Это будет улучшить производительность оператора in. Кроме того, если память не является проблемой вообще, вам может понадобиться скопировать весь вывод в список и записать все в конце, вместо выполнения нескольких операций write().

источник

2015-07-09 02:15:50

Вы можете использовать https://docs.python.org/2/library/itertools.html#itertools.islice:

import itertools 

def method(): 
    with open(input_file, 'r') as inf, open(output_file, 'w') as ouf: 
     seen = set() 
     for line in itertools.islice(inf, None, None, 4): 
      s = line[:6]+line[-6:] 
      if s not in seen: 
       seen.add(s) 
       ouf.write("{}\n".format(s))

источник

2015-07-09 02:32:19 DTing

Помимо использования set, как предложил Оскар, вы можете также использовать islice пропустить линии, а не использовать для цикла.

Как указано в this post, islice препроцессор итератора в C, поэтому он должен быть намного быстрее, чем использовать простой ванильный питон для цикла.

источник

2015-07-09 02:35:36 lightalchemist

Попробуйте заменить

lineChars = line[0:6]+line[145:151]

lineChars = ''.join([line[0:6], line[145:151]])

, как это может быть более эффективным, в зависимости от обстоятельств.

источник

2015-07-09 03:12:43 Doug

Улучшение скорости скрипта python

ответ

Смежные вопросы