2017-02-14 3 views
1

Официальная документация говорит, что RedshiftRedshift кластера резервного дискового пространства

поддерживает по крайней мере, три копии ваших данных (оригинал и реплики на вычислительных узлах и резервного копирования в Amazon S3)

Так что, если оригинальные и реплики существуют в том же кластере,
Означает ли это, что у меня будет только половина размера моего кластера для фактического использования, так как другая половина взята с помощью реплики? Также как я могу увидеть или подтвердить данные резервной копии в кластере?

ответ

1

Я думаю, вы неправильно поняли документацию.

Amazon Redshift копирует все ваши данные в пределах хранилища данных кластера, когда он будет загружен, а также постоянно выполняет резервное копирование ваших данных на S3. Amazon Redshift всегда пытается сохранить не менее трех копий ваших данных (оригинал и реплику на вычислительных узлах и резервную копию в Amazon S3).

Это фактически говорит о двух типах резервных копий:

  1. оригинал и копия на вычислительных узлах: Это говорит о том, внутренний механизм резервного RedShift в. Каждый кластер размером более 1 узла состоит из двух типов узлов: лидера и вычисления. Эта часть говорит, что Redshift внутренне поддерживает ваши данные через вычислительные узлы, поэтому, если один вычислительный узел опускается, Redshift не теряет ваши данные. Другими словами, эта репликация данных обеспечивает долговечность.

    Конечно, дополнительная резервная копия занимает пространство в вашем кластере, но я не думаю, что Redshift позволяет изменить этот параметр или получить доступ к данным резервного копирования как таковым. Это все прозрачно для вас.

  2. backup in Amazon S3: Эти резервные копии доступны для вас, и вы можете использовать существующий для восстановления данных для создания нового кластера.

Дополнительную информацию о нем можно найти here.

+0

Спасибо за ваш ответ. Можете ли вы сообщить мне, если эта резервная копия произойдет в кластере, если в кластере есть только один узел? (Я предполагаю, что лидер и вычислительный узел одинаковы в этом случае) –

+1

Поскольку в документации Redshift это явно не указано, я бы предположил, что это происходит и для кластера с 1 узлом. –

2

Каждый узел вычисления Amazon Redshift фактически имеет в два раза больше объема хранения, как указано в публичном заявлении. Экстра используется для резервного копирования других узлов.

Вы можете увидеть это в запросе, как это:

SELECT 
    owner AS node, 
    diskno, 
    used, 
    capacity, 
    used/capacity::numeric * 100 as percent_used 
FROM stv_partitions 
ORDER BY 1, 2; 

Первичная хранения при host = node. Для других значений это означает, что хранилище используется в качестве резервной копии.