Мне нужно разложить около 75 миллионов строк символов, используя R. Мне нужно сделать что-то вроде создания матрицы Term Document, где каждое слово, которое встречается в документе, становится столбцом в матрице и в любом месте этого термина, матричный элемент кодируется как 1.Разложение строки
У меня: Около 75 миллионов строк символов длиной от 0 до 100 символов; они представляют временной ряд, дающий закодированную информацию о том, что произошло в этот период. Каждый код имеет ровно один символ и соответствует периоду времени.
Мне нужно: Какая-то матрица или способ передачи информации, отнимающей временные ряды, и просто говорит мне, сколько раз в каждой серии сообщалось о некотором коде.
Например: Строка «ABCDEFG-123» станет строкой в матрице, где каждый символ будет подсвечен как один раз. Если это слишком сложно, матрица из 0s и 1s также даст мне некоторую информацию, хотя я бы предпочел сохранить как можно больше информации.
Есть ли у кого-нибудь идеи, как это сделать быстро? Существует 20 возможных кодов.
Просто заметил, что если строки появляются несколько раз, они получают объединены в результате. Например, если вы отбросите 'nchars' до типа' 3', вы увидите это. Не уверен, что это необходимо. – Frank