Я ищу, чтобы извлечь текст из необработанного фида для кредитной карты для рабочего процесса. Я получил почти то место, где хочу, но борюсь с последней частью информации, которую я пытаюсь извлечь.Извлечение данных с использованием регулярных выражений из банковского фида
Пример сырого корма:
LEO'SFINEFOOD&WINEHARTWELLJune350.0735.00ICGROUP,INC.MELBOURNEJune5UNITEDSTATESDOLLARAUD50.07includesconversioncommissionofAUD1.469.96WOOLWORTHS3335CHADSTOCHADSTONE
Ищу, чтобы извлечь это из вышеизложенного:
(ICGROUP,INC.MELBOURNE)June5UNITEDSTATESDOLLARAUD(50.07)includesconversioncommissionof
со скобками, представляющими две группы я после. Последовательные части во всех случаях того, что я пытаюсь извлечь это:
DIGITS (TEXT) DATE TEXT AMOUNT includesconversioncommissionof
Я был в состоянии использовать регулярное выражение:
([A-Z][a-z]\d)[A-Z]AUD(\d\,?\d+?.\d*)includesconversioncommissionofAUD
, чтобы мне дату и сумму. Я пытаюсь найти способ получить в соответствии с примером выше слов ICGROUP,INC.MELBOURNE
Я попытался поставить \d\d(.*)
перед вышеназванным регулярным выражением, но это почему-то не работает.
Буду признателен, если кто-нибудь сможет помочь с тем, что мне нужно!
Что это за ужасный формат? В части 'WELLJune350.07', как вы можете узнать, где заканчивается дата и где начинается сумма?Ладно, нет 35-го июня, но что, если это было «Июнь 250.07»? Это 50 долларов на 2 июня, или 0,07 доллара за 25 июня? –
Это довольно жестко и определенно растягивает границы того, что можно сделать здоровым. Вы уверены, что они не могут отправить вам данные с некоторыми разделителями? Является ли значение в позиции после 'ICGROUP, INC.MELBOURNE' всегда полного имени месяца, за которым следует числовой день? – mwp
Эй! Я на самом деле был «LEO'SFINEFOOD & WINEHARTWELL» много раз :) – Bohemian