У меня много длинных строк, а часть строки содержит URL-адрес. Я хочу извлечь первую часть URL-адреса после https? перед выходом abcd.com. Некоторые URL-адреса используют http-использование https; Например:Как извлечь первую часть URL-адреса с помощью свиньи
long string --------&url=http%3a%2f%2fwww.abcd.com%2f------long string
long string --------&url=https%3a%2f%2fmobile.abcd.com%2f------long string
long string --------&url=http%3a%2f%2fmobile.abcd.com%2f------long string
long string --------&url=https%3a%2f%2faccount.abcd.com%2f------long string
long string --------&url=http%3a%2f%2fsale.abcd.com%2f------long string
long string --------&url=https%3a%2f%2flogin.abcd.com%2f------long string
Результатом будет www, mobile, mobile, account, sale, login.
То, что я пытался до сих пор
A = LOAD DATA;
B = FOREACH A GENERATE (chararray)REGEX_EXTRACT(line, '.*&url=https?%3a%2f%2f([^\.]+)\.', 1) AS firstparturl;
DUMP B;
Это дает мне ошибку, жалуясь о последнем периоде в regex_extract «».