У меня есть текстовая переменная, показывая рецепт пациента, который выглядит довольно грязно, как это:Как извлечь компоненты неорганизованной строковой переменной в Stata?
PatientRx
ACETAZOLAMIDE 250MG TABLET- 100
ADAPALENE + BENZOYL 0.1% + 2.5% GEL-..
ADRENALINE/EPIPEN 300MCG/0.3ML INJ..
ALENDRONATE + COLECA 70MG + 140MCG TA..
ALLOPURINOL 100MG TABLET- 100
ALUM HYDROX + MAG HY 250+120+120MG/5M..
AMILORIDE + HYDROCHL 5MG + 50MG HCL T..
Пока я не просмотрел все эти ценности, некоторые модели могут возникнуть:
- Часто бывает несколько лекарств, и они разделены, например, пробелом и косой чертой.
- Наркотики также разделяются знаком «плюс». Но плюс знак также используется между дозами.
- Правило, связанное с пространством, очень произвольно, как в начале, так и в середине ввода.
Как я могу извлечь только названия препаратов в новые переменные? Новые переменные должны выглядеть так:
Newvar1 Newvar2
ACETAZOLAMIDE
ADAPALENE BENZOYL
ADRENALINE EPIPEN
ALENDRONATE COLECA
и так далее.