У меня есть большой файл с 107635 строками и 3 столбцами: тема, области интереса (ROI) и номер пробной версии. ROI могут быть A, B, C, D, E, F. Что я хочу сделать, так это сохранить только те испытания, в которых в столбце ROI у меня есть последовательная последовательность B, C, D, когда B появляется. Неважно, сколько раз происходят B, C и D.R - идентифицировать последовательные последовательности
В приведенном ниже примере я могу сохранить ntrial 78 и 201, потому что в первый раз, когда появился B, следовали C и D. Однако мне нужно удалить ntrial 10 и 400. В испытании 10 B, C и D не являются последовательными. В испытании 400 в первый раз, когда появляется B, B не следует C и D.
Для вывода мне нужен столбец со значением 1 для испытаний, которые должны храниться в каждой строке, и значение 0 для строк, соответствующих удаляемым испытаниям.
Любое предложение о том, как создать код, который может автоматизировать процедуру, без визуального осмотра каждой пробной версии?
Большое спасибо!
subject ROI ntrial output
sbj05 A 78 1
sbj05 A 78 1
sbj05 A 78 1
sbj05 A 78 1
sbj05 A 78 1
sbj05 A 78 1
sbj05 B 78 1
sbj05 B 78 1
sbj05 C 78 1
sbj05 D 78 1
sbj05 E 78 1
sbj05 E 78 1
sbj05 E 78 1
sbj05 A 201 1
sbj05 A 201 1
sbj05 A 201 1
sbj05 A 201 1
sbj05 A 201 1
sbj05 B 201 1
sbj05 C 201 1
sbj05 D 201 1
sbj05 E 201 1
sbj05 E 201 1
sbj05 E 201 1
sbj05 F 201 1
sbj05 F 201 1
sbj05 A 10 0
sbj05 A 10 0
sbj05 A 10 0
sbj05 A 10 0
sbj05 B 10 0
sbj05 A 10 0
sbj05 C 10 0
sbj05 D 10 0
sbj05 E 10 0
sbj05 E 10 0
sbj05 A 400 0
sbj05 A 400 0
sbj05 A 400 0
sbj05 B 400 0
sbj05 A 400 0
sbj05 B 400 0
sbj05 C 400 0
sbj05 C 400 0
sbj05 C 400 0
sbj05 D 400 0
sbj05 E 400 0
sbj05 E 400 0
sbj05 D 400 0
В ntrial 78 это 'BBCD', поэтому он не является первым B, за которым следует C D – akrun
Пожалуйста, укажите желаемый результат, так как ваше описание немного запутанно. –
@akrun, что я подразумеваю под первым B, это первый раз, когда B появляется в столбце ROI. Тогда для меня не имеет значения, если за B следует множество B, прежде чем перейти на C и D. Важно то, что единственными последовательными буквами, которые могут появляться, являются «B», «C» и «D». Надеюсь, он уточнит .. – dede