Действия для ускорения вычислений R

Я задаю этот вопрос как общий/начальный вопрос о R, но не для пакета, который я использовал.Действия для ускорения вычислений R

У меня есть dataframe с 3 миллионами строк и 15 колонками. Я не считаю это огромным фреймворком данных, но, возможно, я ошибаюсь.

У меня был следующий скрипт, и он работал в течение 2 часов - я думаю, что я должен что-то сделать, чтобы ускорить это.

Код:

ddply(orders, .(ClientID), NumOrders=len(OrderID))

Это не слишком интенсивный сценарий, или опять же, я не думаю, что это.

В базе данных вы можете добавить индекс в таблицу, чтобы увеличить скорость соединения. Есть ли аналогичное действие в R Я должен делать импорт, чтобы ускорить выполнение функций/пакетов?

источник

2012-06-06 mikebmassey

См. [data.table] (http://cran.r-project.org/web/packages/data.table/) пакет. –

@JoshuaUlrich data.table вместо dataframe? Действительно ли они взаимозаменяемы? Спасибо – mikebmassey

Пришел, чтобы предложить 'data.table' тоже. Этот op будет значительно быстрее, и вы сможете запустить тот же бит кода, как только вы преобразуете свой файл data.frame в 'data.table'. 'orders <- data.table (orders)'. Так просто. – Maiasaura

С предложенной data.table пакета, следующая операция должна сделать работу в течение одной секунды:

orders[,list(NumOrders=length(OrderID)),by=ClientID]

источник

2012-06-06 11:39:28 Dirk

Похоже, весь ваш код делает это:

orders[order(orders$ClientID), ]

Это было бы быстрее.

источник

2012-06-06 01:08:28 mdsumner

кажется мне, что вы можете: (. Я не знаю, что функция Len() существует)

orders$NumOrders <- with(orders(ave(OrderID , ClientID) , FUN=length))

источник

2012-06-06 01:14:58

Действия для ускорения вычислений R

ответ

Смежные вопросы