2013-10-05 2 views
0

У меня есть один сервер linux (ubuntu) в среде разработки, и я планирую использовать один сервер для производственной среды.HBase Pseudo распределенный или полностью распределенный режим?

У меня есть данные обхода, полученные от Nutch 2.2.1, которые я хотел бы хранить в HBase 0.90.6. Поскольку, Я не намерен использовать несколько машин, (все, что у меня есть один сервер), какой режим HBase идеально подходит для производства env в моем случае - псевдо или полностью распределен?

ответ

2

Псевдораспределенный режим будет лучше, так как в автономном режиме используется локальная FS. Это означает, что вы не можете использовать параллелизм, предоставляемый компиляцией HDFS + MR.

+0

Спасибо Tariq! Я немного смущен. Вы имели в виду, что я могу использовать параллелизм от HDFS + MapReduce, если я использую Pseudo-распределенный режим? – sunskin

+1

Фактически вы увидите некоторый параллелизм на машине, на которой запущен псевдокластер. По умолчанию установлено, что tasktracker может запускать до двух карт и сводить задачи параллельно. Попытайтесь увеличить с помощью ** mapred.tasktracker.map.tasks.maximum ** и ** mapred.tasktracker.reduce.tasks.maximum ** и посмотреть, делает ли какая-либо существенная разница. – Tariq

+0

Еще раз спасибо! Я попробую это. Мой клиент компании предоставил нам только один сервер Linux для производственной среды, я не вижу, чтобы это изменилось в ближайшем будущем. Псевдораспределенный режим достаточно хорош для производственной среды? или будет ли необходимость переходить в полностью распределенный режим? Примечание. Я не предвижу использование кластера вообще. – sunskin

Смежные вопросы