После запуска некоторых длинных заданий записи (пакетная вставка из задания Apache Spark Job с коннектором Spark Cassandra) Cassandra (v. 2.1) создал тысячи SSTables для целевой таблицы (более 4500). Меньшие пороги уплотнения устанавливаются в значения по умолчанию (от 4 до 32). Это означает, что теоретически многие мелкие задачи уплотнения должны быть запланированы автоматически.Cassandra большое количество SSTables
Я проверил состояние и nodetool указал, что никаких заданий не планировалось. Я прекратил делать операцию несколько часов. Затем я перезапустил кластер несколько раз. Ждал еще немного времени. Отключено и повторно включено автосохранение. Ждали. Увеличена пропускная способность до 999 МБ/с. Ждали.
Во время этих испытаний в некоторых узлах в течение ограниченного периода времени было случайно запущено небольшое количество мелких уплотнений. Большинство узлов ничего не делали целый день.
Затем я решил вручную запустить крупное уплотнение (это займет несколько дней ... Amazon EBS).
Почему Cassandra не делает никакого незначительного автоматического уплотнения, даже если количество SSTables в 100 раз превышает порог (32)?