Как построить число одновременных рабочих заданий в любой момент времени

-6

У меня есть некоторые данные о конкретных заданиях; важными частями являются время начала и время окончания каждой конкретной работы. Я хотел бы построить агрегированный (счет) одновременных заданий с осью x, являющейся временем и осью Y, числом заданий, выполняемых в этот конкретный момент времени.Как построить число одновременных рабочих заданий в любой момент времени

Поскольку я начинаю с R, я начал с некоторых шагов предварительной обработки, таких как объединение столбцов даты и времени, преобразование в POSIXlt, вычисление timediffs() и так далее. Теперь я застрял. Мне не нужен код, но я был бы признателен за любой намек, как это реализовать.

В частности, я не знаю, как использовать время обработки задания в качестве процесса, а не только с помощью начальной точки

Это вот мой кадр данных:

'data.frame': 10000 obs. of 7 variables: 
$ Process_name   : Factor 
$ Process_start  : POSIXlt, format: "2009-12-23 03:44:38" 
$ Process_end   : POSIXlt, format: "2009-12-23 03:44:42" 
$ Process_duration(s) : Class 'difftime' atomic [1:10000] 4 75 1 2 1 
$ ProcessIncludedInJob : Factor

Я хочу знать сколько заданий выполняется в определенный момент времени одновременно. Работа - это процесс, который работает некоторое время. Во время выполнения другого задания может запускаться и запускаться одновременно, например. Я хочу рассчитать и построить это обстоятельство для дальнейшего анализа. Мой первый подход заключался в том, чтобы нарисовать дату на x и, например, использовать либо startdate, либо enddate для оси y. Но так как каждая работа - это своего рода процесс, а не только момент времени (начало или конец), я не могу видеть, сколько заданий выполняется одновременно. Поэтому я предполагаю, что я должен каким-то образом использовать столбец Jobstart и столбец Jobduration.

источник

2016-11-03 Yugo meran

Вы получаете кучу голосов, потому что вы не включили никого, кто мог бы дать ответ на ваш вопрос. Используйте 'dput()' для вывода ваших данных в формате, который мы можем легко прочитать в нем как минимум. В идеале вы работаете через подмножество своих данных вручную и показываете нам пример того, какие ваши входы и какие вы хотите. [Это сообщение] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) может помочь вам с другими способами улучшить ваш вопрос. – Barker

Да, пожалуйста, отредактируйте вывод из 'dput (head (df, 10))' в свой вопрос. Тогда мы сможем ... – smci

Я набросок наброски здесь, но нам действительно нужно размещать воспроизводимые данные (пожалуйста!):

в любое время т, в num_running_processes = number of started processes - number of ended processes. (Это всегда будет целым числом от 0 до n)
который переводится как df$num_running_processes <- sum(Process_start <= t) - sum(Process_end < t). Примечание 'end < t', а не '< ='.
Теперь вам не нужно выбирать временной интервал, разделенный на временные интервалы (например, 1 мин или 5 секунд или что-то еще), так как вы знаете, что num_running_processes только когда-либо меняет значение в любое из множества раз либо в Process_start или Process_end.
поэтому ваша ось времени может быть установленным соединением: df$t <- union(Process_start, Process_end). У вас есть неравномерная ось времени, и все в порядке. Обратите внимание, что это также вне порядка, т. Е. Новый процесс может начаться до того, как предыдущий закончен. (Мы реорганизовать вещи, заказав dataframe по оси времени)
также вычислить другой столбец df$num_running_processes, как описано выше
перед вами участка, сортировки или заказать dataframe по оси времени df$t (dplyr библиотека хороша для выполнения этих манипуляции)

источник

2016-11-19 13:41:24 smci

, убедитесь, что вы назначили -1 для окончания времени и +1 для начала, сортируйте данные в возрастающий временной порядок, затем просто используйте 'cumsum()' ... –

Да, я сначала подумал об использовании 'cumsum() ', но тогда я понял, что ось времени не соответствует порядку, поэтому нам нужно вычислить всю сумму (Process_start <= t) - sum (Process_end <= t)' в каждой начальной или конечной точке. Итак, альтернативой является преобразование данных в кадр данных с столбцами «Start_Stop» и «time» с событиями «+ 1» (start) и временем начала и «-1» (окончание) событий и конечными точками, изменить порядок данных по времени, а затем вычислить 'df $ num_running_processes' до этого момента времени непосредственно из cumsum в столбце Start_Stop (+ 1/-1). Но это работает, если структура данных была переупорядочена по временной оси. – smci

Как построить число одновременных рабочих заданий в любой момент времени

ответ

Смежные вопросы