2016-12-12 3 views
0

Можно ли использовать регулярное выражение для извлечения всей информации перед твитами?Как использовать RegEx для извлечения информации

Пример входных данных:

Fri Mar 15 23:58:48 CET 2013 (DMHardy_) "I went to buy some fruit 
today but bought 3 Easter eggs instead" @Ribby27 

Fri Mar 15 23:58:48 CET 2013 (fujimiiru) <画像> 
OKストア川越店購入「信州のチカラ 信州なめこ JA全農長野」 検体重量892g。65000秒測定。 
セシウム137、0.85±0.44Bq/Kg検出(参考値です。誤検出?) ゲルマで測定してみたいです。 

Fri Mar 15 23:58:49 CET 2013 (BiancaValverdde) RT @luscaspfvr: no 
instagram parece a rihanna, na rua parece a alcione 

Пример вывода:

Fri Mar 15 23:58:48 CET 2013 (DMHardy_) 
Fri Mar 15 23:58:48 CET 2013 (fujimiiru) 
Fri Mar 15 23:58:49 CET 2013 (BiancaValverdde) 
+0

Я использую жесткое кодирование java, слишком грубое, и я ищу лучший метод. –

+0

Я удалил все/n с помощью java, а затем использовал «^ (\\ w +) \\ s (\\ w +) \\ s (\\ d +) \\ с (\\ d + \\: \\ d + \\: \\ d +) \\ с (\\ ш +) \\ с (\\ d +) \\ с (\\ (\\ w + \\)) \\ s (. +) ", чтобы разбить строки в talend –

+1

, но вы сами не пробовали regex? похоже, вам нужно всего лишь совместить все до первого ')' – Fallenhero

ответ

0

попробовать это. (Жаль, что я не уверен, что он будет работать с Java)

/^.+?\)/gm 

см https://regex101.com/r/iPtCV3/1

^ от линии запуска

.+? все до первого

\)

я думаю m ultiline должен быть установлен флаг

+0

Пт мар 15, 23:58:48 CET 2013 (DMHardy_) «Я пошел сегодня покупать фрукты, но вместо этого купил 3 пасхальных яйца», не пт 15 марта 2013 23:58:48 CET (fujimiiru) <画像>)) Привет Хахаха (PsPs) пТ 15 марта 23:58:49 CET 2013 (BiancaValverdde) ОТ @luscaspfvr: нет Instagram parece rihanna, na rua parece a alcione –

+0

Что происходит, когда люди печатают скобки в tweet haha ​​ –

+0

, это не имеет значения, потому что это соответствует только от начала строки до FIRST ')', предполагая, что вся информация находится в одной строке. – Fallenhero

Смежные вопросы