2012-04-01 3 views
2

Я изучал идею использования распределенной файловой системы вместе с выделенными серверами вместо того, чтобы идти с Amazon S3, и результаты - это не что иное, как массивные головные боли!Хорошо распределенная файловая система общего назначения в моем случае?



Мой проект имеет следующие характеристики/требования:

  • Пользовательские файлы хранятся в выделенных серверов. Каждый файл хранится в двух отдельных машинах, расположенных в разных центрах обработки данных (150-200 миль друг от друга)

  • Я использую Amazon RDS для размещения связанной базы данных mysql (*). Это довольно компактный (только метаданные ID/файлов).

  • Файлы/данные около 50 ТБ. Естественно, что данные действительно меняются, и, безусловно, расти со временем



Моим вопрос: есть хорошее общее назначение, распределенных параллельная отказоустойчивая файловая система, что есть следующие характеристики:

  • Стабильная & достаточно быстро (загрузка/выгрузка)

  • Довольно легко установить & поддерживать хранение данных

  • ручки, так что я только должен заботиться об удалении/добавлении новых серверов, если в этом возникнет необходимость (т.е.. добавлять новые серверы в пул серверов в файловой системе путем редактирования простой конфигурации, или что-то подобное)

Я читал о OpenStack, GlusterFS, MogileFS, XtreemFS и т.д ... но чем больше я читал, тем больше я смущаюсь!

(*) Да, я понимаю противоречие. Понятно, что имеет смысл размещать базу данных на RDS. Но хранение (до) 50 Тбайт файлов пользователей на амазонке слишком дорого по сравнению с использованием выделенных серверов (при условии, что это достаточно хорошо).

PS. мое приложение еще не живое, поэтому я открыт для предложения, если у кого-то есть хорошая идея, которая подходит мне в моем случае.



EDIT Я не пытаюсь сделать клон S3, мне просто нужно использовать существующие инфраструктуры хостинга для создания мелкомасштабного решения облака, на мой вопрос о поиске права распределенной файловой системы для ее обработки/автоматизации.

+0

Почему бы вам не попробовать GlusterFS или CephFS frist? Не просто читать, попробуйте. Они имеют разные рабочие характеристики и административные издержки. –

+0

XtreemFS предназначен для внешнего облачного доступа, он не предназначен для использования в качестве общего хранилища между серверами. –

+0

@ J-16SDiZ: Я был настолько ошеломлен всеми решениями там (не говоря уже о маркетинге blabla!), Что я чувствовал, что должен был попросить здесь просто убедиться, что я на правильном пути – TheDude

ответ

1

Не может потребоваться несколько человек в течение нескольких месяцев в году для управления этими серверами?Это будет стоить около $, тогда у вас есть стоимость размещения данных самостоятельно, тогда у вас есть дополнительные огромные затраты, которые бизнес/система, которую вы строите, явно не масштабируема? Кроме того, любой вероятный инвестор будет отвергнут сложной домашней системой хостинга. Как вы обеспечите целостность/безопасность наравне с Amazon? Ваша максимальная экономия в год выглядит примерно как 30 000 долларов.

Вы можете сэкономить деньги, выполнив дедуплицированную систему хранения, в которой вы просто храните все уникальные куски данных - также см. Rsync. Не знаю, насколько избыточны ваши данные.

+1

Я на самом деле пытаюсь * избегайте * домашнего решения для хостинга с помощью распределенной файловой системы, которая может автоматически ** обрабатывать это (так что мне нужно только заботиться о добавлении новых серверов). Кроме того, я * уже * использовал дублирование/rsync. – TheDude

+0

Кроме того, мое приложение предназначено для (крупной) местной компании, поэтому (1) у инвесторов нет вопросов в этом случае, и (2) часть их требований заключается в использовании их существующей, хорошо зарекомендовавшей себя инфраструктуры хостинга. – TheDude

0

Недавно мы переключились с дорогостоящего решения для хранения на Lizardfs с открытым исходным кодом для нашего решения для распределенных хранилищ. Это довольно просто настроить и масштабировать, как только вы поймете базовую концепцию.

Отъезд https://docs.lizardfs.com/introduction.html#architecture для краткого обзора. Но забудьте о теневом мастере en meta loggers. То, что вы должны знать, что есть

  1. мастер: который регулирует движение (убедитесь, что достаточно процессора)

  2. chunkservers: который на самом деле хранения данных. Используйте любой вид аппаратного обеспечения на полке с прикрепленной связкой жестких дисков.

  3. Клиенты: это просто точки крепления. Таким образом, вы можете получить гигантское 50TB mount, если хотите. Мастер скажет клиенту, где искать/хранить файлы. Фактические данные передаются прямо с клиента -> chunkserver и обратно.

Вы можете добавить столько chunkservers, сколько захотите, мастер автоматически попытается сбалансировать ваше использование хранилища через них. Добавление хранилища - это вопрос добавления жестких дисков или добавления серверов. Они не должны быть настоящими голыми металлическими машинами, но это, вероятно, самый дешевый.

В lizardfs есть две замечательные особенности, которые позволяют геореплицировать.

  1. Голы (см. https://docs.lizardfs.com/adminguide/replication.html#standard-goals): Насколько важны файлы для вас. На уровне уровня файла/папки можно определить, сколько раз нужно реплицировать файл. Вы хотите 2 копии 3? 10? Вы можете определить цель 2-х копий для старых файлов, которые просто существуют для целей архивирования. Определите цель 4-х копий на SSD-накопителях для всех новых файлов.

Те же цели также могут использоваться для георепликации. Вы определяете, что ваши данные должны храниться в наименее двух разных местах, соответственно маркируя ваши chunkservers. (например, DC1 и DC2)

  1. Значок стойки (см. https://docs.lizardfs.com/adminguide/advanced_configuration.html#configuring-rack-awareness-network-topology): вы в основном определяете диапазоны IP, чтобы научить систему, как выглядит ваша сеть. Таким образом, клиенты будут пытаться обслуживать файлы с ближайшего сервера.

Легкость настройки - это то, что продается lizardfs для меня. Я слышал очень хорошие вещи о Ceph, но настройка его - другое дело ...

Что меня сначала беспокоило, насколько доказана технология. Поэтому я потратил немало исследований на выяснение того, кто его использует. Orange Poland (Крупный поставщик телекоммуникационных услуг) является одним из пользователей. И Cloudweavers/opennebula Фактически построил бизнес вокруг него selling complete solutions.

Смежные вопросы