1

Я запустил алгоритм SVM с использованием библиотеки MLIB в Spark по данным размера 8G и 7 миллионов строк. Я запускаю Spark в автономном режиме на одном узле./usr/bin/time Использование CPU против TOP при использовании SPARK

Я использовал/usr/bin/time -v для сбора данных о работе. Я получил пиковое использование памяти и% процессорного времени между прочим. Употребление% CPU у меня было всего 6%. Я наблюдал за ТОПом, пока программа работала, и я мог видеть, что более 100% используется почти последовательно. Я теперь смущен, почему/usr/bin/time показал только 6%?

Дополнительная информация - моя машина 16G, а программа, которую я запускал, потребляла 13,88G. Программа выполняется за 2.1 часа.

Любые идеи, кто-нибудь?

ответ

0

Я понял, проблема. Итак, что показало usr/bin/time (6%), было в процентах от общего доступного CPU (в этом случае 8 потоков), а TOP показывал 100% для одного единственного потока.

Btw, если это помогает кому-либо, причина, по которой только одна нить использовалась вместо всех 8, заключалась в том, что я упомянул «местный», а не «локальный [*] в моем SparkContext (sc = SparkContext (« local ») , ...). Узнайте больше об этом HERE.

Смежные вопросы