2015-03-03 2 views
0

У меня есть вопрос о примере MapReduce объясняется здесь:Fiware-Космос MapReduce

http://forge.fiware.org/plugins/mediawiki/wiki/fiware/index.php/BigData_Analysis_-_Quick_Start_for_Programmers

Это действительно самый распространенный пример Hadoop MapReduce, в WordCount.

Я могу выполнить его без проблем в глобальном экземпляре Cosmos, но даже когда я даю ему небольшой вход (файл с 2 или 3 строками), для его выполнения требуется много времени (на полминуты больше или менее). Я предполагаю, что это его нормальное поведение, но мой вопрос: ¿Почему это так долго даже для небольшого ввода?

Я предполагаю, что этот метод повышает его эффективность при использовании больших наборов данных, где эта минимальная задержка является незначительной.

ответ

0

Прежде всего, вы должны учитывать текущий экземпляр Cosmos на FIWARE LAB - это общий экземпляр Hadoop, поэтому многие другие пользователи могут выполнять задания MapReduce в то же время, что приводит к «конкуренции» за вычислительные ресурсы.

Говоря о том, что MapReduce предназначен для больших наборов данных и больших файлов данных. Это добавляет много накладных расходов, что нет необходимости при обработке нескольких строк (потому что для пары строк analsis вам не нужен MapReduce! :)), но которые очень помогают, когда эти строки являются thounsands, даже миллионами. В этих случаях время обработки пропорционально размеру данных, конечно, но не в доле 1: 1.