Я пытаюсь извлечь данные электронной почты из необработанного текста, используя свиньи.Свинья: извлечение электронной почты из исходного текста с помощью REGEX
Вот образец данных:
Sample data for email [email protected]
Sample data for email [email protected]
Я пытаюсь с помощью метода Regex, регулярное выражение я взял из: http://www.mkyong.com/regular-expressions/how-to-validate-email-address-with-regular-expression/
Вот сценарий:
A = Load '----' using PigStorage as (value: chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(value, '^[_A-Za-z0-9-\\+]+(\\.[_A-Za-z0-9-]+)*@[A-Za-z0-9-]+(\\.[A-Za-z]{2,})$')) AS (f1: chararray)
dump B;
После сброса вывод в терминал, я получаю пустой выход:
()
()
Есть ли проблемы в синтаксисе скрипта?
Пожалуйста, поделитесь некоторыми ссылками также относительно написания регулярных выражений, было бы очень полезно.
Ваша помощь приветствуется, спасибо.
Hi Manish! Вы должны принять ответ @ Bharat, если он вам полезен (похоже, что это было, поскольку у вас не было никаких дополнительных вопросов для него) (и также мне кажется правильным) – Eyal