2013-04-01 3 views
1

Я ищу базу данных, предназначенную для обработки структурированных данных дерева. Я смотрел в Neo4j, и это хорошо, но на самом деле это не поддерживает осколки. Couchbase, с другой стороны, на самом деле не построена для одного дерева данных (из моего понимания).Распределенная база данных для структурированных данных дерева?

Дерево данных теоретически очень легко разделить между серверами, тогда как полный график - нет. Мне не нужны преимущества полного графика, так как мне нужна динамическая разбивка большого массива данных. Полный набор данных не будет помещаться на одном сервере.

функции что мне нужно (объяснение, как если бы это был обычный компьютер файловой системы):

  1. Выберите каждый узел в какой-то «папка» за исключением «подпапок»
  2. Сплит базы данных (и нагрузки) между серверами с резервированием

Загрузка системы в основном будет считаться (приблизительно 90%).

Спасибо!

+0

Насколько велик ваш набор данных? Возможно, вы преждевременно оптимизируете свой код, прежде чем он понадобится. У вас есть идея, что вы можете разделить? Вы говорите, что дерево созрело для осколков, но можете ли вы уточнить, поскольку я вижу, что многие деревья имеют те же проблемы, что и графики с осколками. – Nicholas

+0

http://thinkaurelius.com/2013/03/30/titan-server-from-a-single-server-to-a-highly-available-cluster/ Проверьте Titan. Графическая база данных, созданная для масштабирования - и даже осколок. – ryan1234

+0

@Nicholas Это будет около 1GB-100TB, но я хочу, чтобы он масштабировался полностью. Я мог бы просто расколоться на любом «уровне папки», т. Е. Поставить половину «папок» на один сервер, а другую половину на другую, не так ли? –

ответ

0

Я прокомментировал, потому что хотел попробовать и помочь, и не думал, что моя ссылка действительно заслуживает внимания. =)

Я следил за Титаном, и сейчас это очень кровоточащий край. После прочтения статьи (http://thinkaurelius.com/2013/03/30/titan-server-from-a-single-server-to-a-highly-available-cluster/) казалось, что они используют Кассандру в некоторой степени, поэтому масштаб Кассандры тесно связан с масштабом Титана.

Из статьи кажется, что вам не нужно явно очертить данные. Он будет автоматически распространять его для вас, когда он достигнет определенного размера.

Вот еще одна презентация о Titan и как он использует Кассандры: http://blog.andreamostosi.name/2013/03/titan-distributed-graph-database/

+0

Каковы риски использования решения для устранения кровотечений? –

+0

Если бы я был вами, я бы сразу обратился к ребятам из Титана и сформировал отношения. Если вы никогда не разговариваете с ними, то вы рискуете попасть в какую-то ошибку и не иметь никакой поддержки/не понимаете, что происходит. Риск состоит в том, что вы напишете тонну кода против Titan, и он будет находиться под или станет непригодным. У Neo4j есть история, но Титан может стать следующим лучшим. Это может показаться копом, но в последнее время в Твиттере много щебня. Следуйте @aureliusgraphs и задавайте им вопросы. Бьюсь об заклад, они отвечают! – ryan1234

+0

По-прежнему нет ответа от @aureliusgraphs. Поскольку он основан на кассандре, имеет ли он те же пределы, что и кассандра? И как cassandra знает, что хранить на каком сервере, чтобы минимизировать обход графика по серверам? –

Смежные вопросы