Extract ИНТ между двумя строками в Python

У меня есть список files строк в следующем формате:Extract ИНТ между двумя строками в Python

files = ['/misc/lmbraid17/bensch/u-net-3d/2dcellnet/2dcellnet_v6w4l1/2dcellnet_v6w4l1_snapshot_iter_418000.caffemodel.h5', 
'/misc/lmbraid17/bensch/u-net-3d/2dcellnet/2dcellnet_v6w4l1/2dcellnet_v6w4l1_snapshot_iter_502000.caffemodel.h5', ...]

Я хочу, чтобы извлечь int между iter_ и .caffemodel и возвращает список тех Интс.

После некоторых исследований я придумал это решение, которое делает трюк, но мне было интересно, есть ли более элегантный/pythonic способ сделать это, возможно, используя понимание списка?

li = [] 
for f in files: 
    tmp = re.search('iter_[\d]+.caffemodel', f).group() 
    li.append(int(re.search(r'\d+', tmp).group()))

источник

2016-02-23 Dominic

Вы должны использовать группу захвата. 'r'iter _ (\ d +) \. caffemodel'', а затем получить доступ к значению через' .группу (1) '. –

Просто добавить еще одно возможное решение: объединить имена файлов в одну большую строку (выглядит как все конец с h5, так что нет никакой опасности создания нежелательные матчи) и использовать re.findall на том, что:

import re 
li = [int(d) for d in re.findall(r'iter_(\d+)\.caffemodel', ''.join(files))]

источник

2016-02-23 13:06:17 gil

Мне нравится ваше решение ... Это очень читаемо (лучше, чем я придумал;)) – Dominic

Используйте только:

li = [] 
for f in files: 
    tmp = int(re.search('iter_(\d+)\.caffemodel', f).group(1)) 
    li.append(tmp)

Если положить выражение в скобках, что создает еще одну группу соответствующих выражений.

источник

2016-02-23 12:56:15 martin

Зачем использовать ленивый квантификатор? Здесь избыточно. Используйте жадную версию, она более эффективна. И избегайте точки. И используйте строковый литерал, когда вы объявляете регулярное выражение (просто лучшая практика). –

Все это правда. – martin

Ницца! Я сам смог генерировать понимание: 'li = [int (re.search ('iter _ (\ d +) \. Caffemodel', f) .group (1)) для f в файлах]' - я не знал о операция '()'. Спасибо :) – Dominic

Вы также можете использовать lookbehind assertion:

regex = re.compile("(?<=iter_)\d+") 

for f in files: 
    number = regex.search(f).group(0)

источник

2016-02-23 12:58:57 hek2mgl

решение с пониманием списка, как вы хотели:

import re 

re_model_id = re.compile(r'iter_(?P<model_id>\d+).caffemodel') 
li = [int(re_model_id.search(f).group('model_id')) for f in files]

источник

2016-02-23 13:08:03

Без регулярных выражений:

files = [ 
    '/misc/lmbraid17/bensch/u-net-3d/2dcellnet/2dcellnet_v6w4l1/2dcellnet_v6w4l1_snapshot_iter_418000.caffemodel.h5', 
    '/misc/lmbraid17/bensch/u-net-3d/2dcellnet/2dcellnet_v6w4l1/2dcellnet_v6w4l1_snapshot_iter_502000.caffemodel.h5'] 

print([f.rsplit("_", 1)[1].split(".", 1)[0] for f in files]) 
['418000', '502000']

Или, если вы хотите быть более конкретным:

print([f.rsplit("iter_", 1)[1].split(".caffemodel", 1)[0] for f in files])

Но ваш шаблон кажется повторить, так что первое решение будет вполне достаточно.

Вы также можете нарезать с помощью находку и RFIND:

print([f[f.find("iter_")+5: f.rfind("caffe")-1] for f in files]) 
['418000', '502000']

источник

2016-02-23 13:09:29

Extract ИНТ между двумя строками в Python

ответ

Смежные вопросы