2015-07-16 3 views
1

У нас есть данные в реальном времени, поступающие в нашу систему. У нас есть онлайн-запросы, которые нам нужно обслуживать. Чтобы обслуживать эти онлайн-запросы, нам нужно выполнить предварительную обработку данных, чтобы мы могли работать быстрее. Теперь мой запрос заключается в том, как я предварительно обрабатываю онлайн-данные в реальном времени. Должен быть способ для меня выяснить, были ли данные уже обработаны или нет. Для того, чтобы найти эту разницу, у меня есть следующие подходы:Cassandra удаление передовая практика

  • я могу иметь флаг, который говорит, что данные обрабатываются или необработанный, на основании которых я могу дополнительно принять решение, чтобы обработать или не
  • I может иметь семейство столбцов, где я могу вставить данные с TTL и тему на шине сообщений, например, kafka, которая дает мне идентификатор строки в кассандре, чтобы я мог обрабатывать эту строку в cassandra.
  • У меня может быть столбец фамилии в день и тема в автобусе сообщения как kafka, который дает мне идентификатор строки соответствующего г колонок семья
  • я могу иметь пространства ключей в день, а тема в шине сообщений, как Кафка, который дает мне идентификатор строки соответствующего семейства столбца

Я прочитал некоторые, где, что, если число число удалений увеличивается, а затем количество надгробий увеличивается и приводит к медленному времени запроса. Теперь меня путают с подходом, который я должен выбрать среди вышеупомянутых четырех, или есть лучший способ решить это?

ответ

0

В соответствии с блоком данных datastax третий вариант может быть лучше подходит. Cassandra Anti-patterns

Смежные вопросы