У меня есть текстовый файл в этом формате:Извлечь текст между двумя тегами с помощью Regex
<seg id="1"> They are the same thing. Let's shoot them both. </seg>
<seg id="1"> We can't wait for you to move back either. </seg>
<seg id="2"> You seem quite uptight. </seg>
<seg id="3"> Does your wife (who is also your sister) not give it up any more? </seg>
<seg id="1"> Can domestic violence abusers be rehabilitated? http://usat.ly/1rwvgWf </seg>
<seg id="1"> Taulia enables Fortune 500 businesses to electronically handle </seg>
<seg id="2"> all invoicing and payment to their suppliers </seg>
Я хотел бы получить содержимое тегов в следующем формате:
They are the same thing. Let's shoot them both.
We can't wait for you to move back either.You seem quite uptight.Does your wife (who is also your sister) not give it up any more?
Can domestic violence abusers be rehabilitated? http://usat.ly/1rwvgWf
Taulia enables Fortune 500 businesses to electronically handle all invoicing and payment to their suppliers
, как вы может видеть содержание seg id = "1", seg id = "2", seg id = "3" печатаются в одной строке, потому что они являются одним сообщением. Кроме того, содержание seg id = "1" и seg id = "2" печатается в одной строке.
Я думаю об использовании java и Regex, но я хотел бы знать, есть ли другой способ получить то, что мне нужно.
Вы просто хотите удалить открывание и удалить теги элементов ''? Или вы действительно хотите сопоставить массив элементов '' элементов? –
Sam
Я хочу совместить массив содержимого элементов. в примере вы можете сказать, что seg 1,2,3 являются acutaly одной почтой. Поэтому я хотел бы объединить их всех в один пост. Я хотел бы знать, есть ли у кого-нибудь идея, как с этим справиться ... –
user3001418
Er, XML Parser? Похоже, SAX + StringBuilder - это все, что вам нужно. – Stewart