У меня есть большой набор строк, и я хочу извлечь определенную часть каждой из строк. Каждая строка содержит подстроку так:Самый быстрый способ извлечь часть длинной строки в Python
my_token:[
"key_of_interest"
],
Это единственная часть в каждой строке говорится my_token
. Я думал о том, чтобы получить конечную позицию индекса 'my_token: ["' и после этого получить начальную позицию индекса ''] 'и получить весь текст между этими двумя позициями индекса.
Есть ли лучший или более эффективный способ сделать это? Я буду делать это для строки длиной ~ 10 000 и множеств размером 100 000.
Редактировать: Файл является файлом .ion. По моему мнению, это можно рассматривать как плоский файл - поскольку он основан на тексте и используется для описания метаданных.
Если строка JSON, используйте 'json.loads' и обращайтесь к ней на анализируемом объекте, не пытайтесь разрезать ее как строку. – Amadan
Предполагая, что это единственный раз, когда в каждой строке появляется 'my_token', без дополнительного ограничения (например,« оно, вероятно, будет в последней половине строки »), какое повышение эффективности вы ищете? Я думаю, что вы можете получить предельное увеличение эффективности с помощью регулярного выражения, чтобы просто захватить 'key_of_interest', создав регулярное выражение для окружающих символов, но не в алгоритмически значимой степени. –
@ Амадан Почему это было бы более эффективно? Если строка уже находится в памяти и ему не нужна какая-либо другая часть строки, разве это не просто добавление накладных расходов на загрузку строки в отдельный объект? –