Допустим, что у меня есть текстовый файл. которые я должен читать, и это будет так:Python Найдите n слов до и после определенных слов
... Department of Something is called (DoS) and then more texts and more text...
, а затем «а» Я читаю текстовый файл, который я нашел аббревиатуру, здесь
DoS
Таким образом, для нахождения аббревиатуры я написал :
import re
import numpy
# open the file?
test_string = " a lot of text read from file ... Department of Something is called (DoS) and then more texts and more text..."
regex = r'\b[A-Z][a-zA-Z\.]*[A-Z]\b\.?'
found= re.findall(regex, test_string)
print found
и выход:
['DoS']
то, что я хочу сделать, это:
- ПОКА Я читаю файл найти и аббревиатуру (здесь DoS),
- вычислить количество символов того, что я нашел (здесь 3 символов для DOS)
найти 2 раза (здесь 2x3 = 6) слова ПЕРЕД И ПОСЛЕ «ДОС». здесь будет:
3.1 pre= Department of Something is called 3.2 acronym= DoS 3.3 post= and then more texts and more
- положить эти 3 (pre, акроним, сообщение) в массив.
Любая помощь будет оценена, так как я новичок в python.
Это довольно запутанное описание. – timgeb
@timgeb Я сделал все возможное, чтобы описать его – Rebin
@Rebin, пожалуйста, немного более ясно –