У нас есть данные в реальном времени, поступающие в нашу систему. У нас есть онлайн-запросы, которые нам нужно обслуживать. Чтобы обслуживать эти онлайн-запросы, нам нужно выполнить предварительную обработку данных, чтобы мы могли работать быстрее. Теперь мой запрос заключается в том, как я предварительно обрабатываю онлайн-данные в реальном времени. Должен быть способ для меня выяснить, были ли данные уже обработаны или нет. Для того, чтобы найти эту разницу, у меня есть следующие подходы:Cassandra удаление передовая практика
- я могу иметь флаг, который говорит, что данные обрабатываются или необработанный, на основании которых я могу дополнительно принять решение, чтобы обработать или не
- I может иметь семейство столбцов, где я могу вставить данные с TTL и тему на шине сообщений, например, kafka, которая дает мне идентификатор строки в кассандре, чтобы я мог обрабатывать эту строку в cassandra.
- У меня может быть столбец фамилии в день и тема в автобусе сообщения как kafka, который дает мне идентификатор строки соответствующего г колонок семья
- я могу иметь пространства ключей в день, а тема в шине сообщений, как Кафка, который дает мне идентификатор строки соответствующего семейства столбца
Я прочитал некоторые, где, что, если число число удалений увеличивается, а затем количество надгробий увеличивается и приводит к медленному времени запроса. Теперь меня путают с подходом, который я должен выбрать среди вышеупомянутых четырех, или есть лучший способ решить это?