Как я могу преобразовать формат данных, как:Извлечение специфической информации из данных
James Smith was born on November 17, 1948
в нечто вроде
("James Smith", DOB, "November 17, 1948")
без необходимости полагаться на позиционной индекс строки
Я попытался следующие
from nltk import word_tokenize, pos_tag
new = "James Smith was born on November 17, 1948"
sentences = word_tokenize(new)
sentences = pos_tag(sentences)
grammar = "Chunk: {<NNP*><NNP*>}"
cp = nltk.RegexpParser(grammar)
result = cp.parse(sentences)
print(result)
Как продолжить дальше, чтобы получить результат в желаемом формате.