2016-09-24 2 views
0

Я молодой исследователь и планирую купить вычислительный сервер для (возможно, «большого») анализа данных. На сервере будет 20 ТБ свободного места на жестком диске. Мой текущий вопрос заключается в том, что я должен использовать обычную файловую систему Linux или hadoop hdfs в качестве системы. Кто-нибудь любезно объяснит плюсы и минусы этих двух вариантов?Настройка хранения 20 ТБ: использование обычной файловой системы или hadoop

+0

Первое, что вам нужно сделать, это определить ваши требования к IO. Только * после того, как вы сделали это, можете даже спросить, какое решение лучше всего соответствует вашим потребностям. –

+0

Я не уверен ... Может быть, я начну с хранения большого количества маленьких файлов один раз и прочитаю их несколько раз в день. – user112758

ответ

1

На самом деле нет смысла иметь HDFS через один узел (один сервер). HDFS - это все о , распространяющем данные, чтобы задачи вычислений выполнялись вблизи данных и имели избыточные копии данных, чтобы они могли переносить аппаратные сбои. Один узел не будет предлагать ни одного преимущества HDFS. Если у вас есть кластер машин (например, 10 серверов), то да, вы можете задать этот вопрос. Как и HDFS, это не вариант.

+0

Понял. Последний вопрос: будет ли HDFS более эффективным в хранении данных? (В случаях «много мелких документов» и «нескольких больших документов») – user112758

+0

HDFS не может быть более эффективным, чем базовая файловая система. HDFS будет умножать любой документ по коэффициенту репликации (обычно 3 раза) и разделяет большие документы на небольшие блоки. Таким образом, независимо от эффективности базовой файловой системы, HDFS, работающий над ней, будет, в лучшем случае, такой же, но часто будет хуже. –