Возможно, заданный вопрос, я застрял здесь.Подсчитайте вхождения слова по шаблону в R
Из XML-файла я пытаюсь найти все вхождения, их строки и общее количество появления каждой 12-символьной строки, содержащей только альфу и цифры (буквально буквенно-числовые).
Например: если мой файл xmlInput
, я пытаюсь выполнить поиск и извлечение всех вхождений, позиций и итоговых значений 12-символьной строки альфа-num.
Пример вывода:
String Total Count Line-Num
CPXY180D2324 2 132,846
CPXY180D2131 1 372
CPCY180D2139 1 133
Я знаю, что я мог бы использовать regmatches
, чтобы получить все вхождения строки по шаблону. Я использовал ниже для этого: (Спасибо за вашу помощь в этом).
ProNum12<-regmatches(xmlInput, regexpr("([A-Z0-9]{12})", xmlInput))
ProNum12
regmatches
дать мне все матчи, которые следуют шаблону. но он не дает мне номера строк, где появился шаблон. grep
дает мне номера строк всех вхождений.
Я думал, что могу использовать библиотеку textcnt
Tau
, но не смог заставить ее работать правильно. Возможно, это не правильный пакет?
Есть ли в R пакет или библиотека, которая будет искать все слова, соответствующие шаблону, и возвращать общий счет появления и linenumers каждого события? Если такого пакаджа нет, любая идея, как я могу это сделать, используя любой из вышеперечисленных или лучших?
Вы не могли бы редактировать свой пост, чтобы отформатировать код? Кроме того, команды 'quoting' (с отметками' ') R облегчают чтение. Пример: 'grep' вместо Grep. – Arun
Отредактировано. Надеюсь, теперь это лучше? Благодаря! – BRZ
Ницца, было бы лучше, если бы вы могли дать нам строку, которая должна дать результат, который вы показали. – Arun