У меня есть задача проектирования и вы хотите получить мнение экспертов. Я хочу сохранить некоторые данные, которые выглядит следующим образом:разработка приложения больших данных с использованием django
идентификатор, имя пользователя, пройти, small_pdf_doc, very_large_file -> (бинарный 30GB)
Я хочу использовать Python, но есть свобода выбора:
- NoSQL БД
- реляционная БД
- хранят данные в реляционной БД, кроме very_large_file и хранить, что на диске и отображение имени файла БД
Мне нужно, чтобы решение было масштабируемым. Как вы думаете, лучшее решение? Я провел некоторое расследование, и я рассматриваю возможность использования mondodb или cassandra.
Как вы думаете, они оба будут масштабируемыми? Будут ли замедление запросов со временем? Кроме того, я прочитал документ mongodb, и он говорит, что параллельные записи не поддерживаются, но есть блокировка. Если две параллельные записи являются requeste, будет ли db ломаться или выходить из строя второй или планировать выполнение обоих?
И, наконец, не лучше ли хранить большие файлы с именем файла, которое соответствует идентификатору на диске, а не помещать их в базу данных? Это облегчает резервное копирование и позволяет параллелизм.
прилипает очень большой файл где-нибудь, кроме вашей БД не всегда вещей очень больших файлов в БД исключения случаев, когда вам абсолютно необходимо. Прикрепите его на диске где-нибудь, который будет скопирован. –