У меня довольно небольшой набор данных (5 ~ gb, 1,5 миллиона строк), который в настоящее время хранится в Bigtable и доступен через API HBase (Scala) для целей делая аналитику данных с помощью Spark (dataproc).Предложения по улучшению рабочего процесса Bigtable/HBase/Spark (экономически)
Тем не менее, у меня тоже ограниченный бюджет, а стоимость Bigtable довольно высокая (2 ~ USD/час), поэтому то, что я закончил, - это удаление и воссоздание кластера Bigtable всякий раз, когда мне это нужно.
Очевидным недостатком является то, что для заполнения нового кластера требуется довольно много времени из-за характера моих данных. Все это хранится в одном большом текстовом файле как JSON, и для заполнения кластера требуется 40 ~ минут.
Так что я спрашиваю, есть ли лучший способ выполнить это, например, реализовать какую-то рутину резервного копирования/моментального снимка? Или просто не использовать Bigtable вообще. Я не смог найти другие альтернативы HDFS на платформе Google Cloud.
Следует отметить, что я достаточно свеж для мира Hadoop и больших данных, поэтому извините мое невежество, если я пропущу очевидное.