Мы обсуждали дизайн стратегии хранилища данных в нашей группе для удовлетворения требований к тестированию, воспроизводимости и синхронизации данных. Одной из предлагаемых идей является адаптация подхода NoSQL с использованием existing tool, а не попытка повторной реализации целого ряда файлов в файловой системе. Я не знаю, подходит ли подход NoSQL даже к лучшему подходу к тому, что мы пытаемся выполнить, но, возможно, если я опишу, что нам нужно/хотите, вы все можете помочь.NoSQL для организации хранения и репликации файловой системы?
- Большинство наших файлов являются крупными, более 50 гигабайт, хранятся в фирменном, стороннем формате. Нам нужно иметь доступ к каждому файлу с помощью комбинации имени/даты/источника/времени/артефакта. По существу, стиль стиля пары ключевого значения.
- Когда мы запрашиваем файл, мы не хотим загружать его все в память. Они действительно слишком велики и будут болоте нашего сервера. Мы хотим иметь возможность как-то получить ссылку на файл, а затем использовать проприетарный, сторонний API для проглатывания его частей.
- Мы хотим легко добавлять, удалять и экспортировать файлы из хранилища.
- Мы хотели бы настроить автоматическую репликацию файлов между двумя серверами (для этого мы можем написать скрипт). То есть синхронизировать содержимое одного сервера с другим. Нам не нужна распределенная система, где она появляется только в том случае, если у нас есть один сервер. Мы хотели бы завершить репликацию.
- У нас также есть другие файлы меньшего размера, которые имеют отношение типа дерева к файлам Big. Содержимое одного файла будет указывать на следующее и т. Д. И т. Д. Это не «спицевое колесо», это полномасштабное дерево.
Мы предпочли бы использовать API Python, C или C++ для работы с такой системой, но большинство из нас имеет опыт работы с различными языками. Мы не возражаем, пока это работает, выполняет свою работу и экономит время. Что ты думаешь? Есть ли что-то в этом роде?
Ничего. Спасибо, спасибо. Я думаю, что NoSQL упоминается, потому что это новая жара. – wheaties