У меня есть входные данные, которые состоят из списка идентификаторов объекта и двух категорий, а также значений в реальном времени и двух значений. В реальном времени и значения для каждого идентификатора могут иметь разную длину. В файле есть несколько идентификаторов и несколько категорий для каждого идентификатора.Форматирование по временной шкале до интервала
У меня возникли проблемы с поиском хорошего инструмента для внесения изменений в файл данных. Я использую PostgreSQL для извлечения данных, а R для анализа не может найти хорошую функцию для того, чтобы помочь. Есть предположения? Я, по сути, хочу сделать в реальном времени 30-минутные интервалы, а не временные метки, и использовать их в качестве моих атрибутов и значения из V1 в качестве фактических значений. Но сначала я должен получить категории временных интервалов в свои данные.
Вход:
ID CAT1 CAT2 realtime V1
21 23 51 11/2/3138 18:29 135
21 23 51 11/2/3138 18:58 132
21 23 51 11/2/3138 21:05 129
21 23 51 11/2/3138 21:05 130
21 23 51 11/2/3138 22:53 142
71 23 52 11/4/3138 6:47 66
71 23 52 11/4/3138 8:45 69
71 23 52 11/4/3138 8:45 68
Выход:
ID || CAT1 || CAT2 || Interval 0 || Interval 1 || Interval 2 || Interval 3 || ...
21 || 21 || 23 || 135 || 132 || 130 || 142 || ...
71 || 23 || 52 || 66 || 69 || 68 || NULL || ...
Я также написал кое-что о конкатенации данных, который не показан, чтобы быть очень полезным, но если вы не согласны, пожалуйста, дайте мне знать: Perl + PostgreSQL-- Selective Column to Row Transpose
EDIT :: Я был бы открыт для использования Weka или Matlab, если это существует, или скриптовый язык, чтобы понять это, но я надеюсь, что есть функция/pa ckage где-то там ...
3138? Вы уверены, что? –
Это данные общественного здравоохранения, поэтому он дает мусорные годы. Поскольку меня интересуют только временные интервалы, нам не нужно сосредотачиваться на этом. –