Итак, у меня есть огромный набор данных из более чем 500 000 различных строк, которые мне нужно разделить. Каждая строка представляет собой набор чисел, таких, как это:Разделение строк, содержащих значения
P040120000000000000000001001101210000000120000000000
Важно отметить здесь раздел «P04012
», что соответствует одной конкретной таблице. Несколько сотен тысяч единиц вниз, код превращается в это:
P051120150000000000000002158101110000000210000184380
С «P05112015
», что означает что-то другое. Первые 8-10 символов для каждой строки чисел соответствуют определенной таблице, но на данный момент они все сосредоточены в одном огромном наборе данных с одним столбцом и 500 000 строк. Как разделить строки на конкретные таблицы на основе их чисел?
Я планирую использовать read.fwf
, чтобы разделить числовые строки на столбцы, так что на самом деле в этот момент мы просто выясняем, как разбить их на таблицы.
Этот вопрос мне трудно понять. Вы просто хотите извлечь первые 8-10 символов из каждой строки? –
Каков ваш желаемый результат? –
Хорошо, так вот часть огромного файла данных: P040120000000000000000004212992540000021300000000000 P040120000000000000000004212992650000000730000000000 P050120010000000000000004112991110000021570000000000 P050120010000000000000004112991120000001110000000000 Что мне нужно сделать, это отдельный номерные строки, содержащие «P04012» от всего остального, в основном. Эти строки похожи на число 60 000 в наборе данных, поэтому в первых шести пробелах имеется около 60 000 записей с «p04012», а остальные после этого меняются. Означает ли это вопрос? – Idignatius