Есть ли способ рекурсивно найти дубликаты файлов в ведро Amazon S3? В обычной файловой системе, я бы просто использовать:Как найти дубликаты файлов в ведро AWS S3?
fdupes -r /my/directory
Есть ли способ рекурсивно найти дубликаты файлов в ведро Amazon S3? В обычной файловой системе, я бы просто использовать:Как найти дубликаты файлов в ведро AWS S3?
fdupes -r /my/directory
Там нет команды «найти дубликаты» в Amazon S3.
Однако, вы делаете следующее:
ETag
(контрольная сумма) и Size
Они (очень вероятно) были бы дублирующими объектами.
Вот репозиторий git: https://github.com/chilts/node-awssum-scripts, который имеет файл сценария js, чтобы найти дубликаты в ведре S3. Я знаю, указывая на внешний источник, не рекомендуется, но я надеюсь, что это может вам помочь.
import boto3
s3client = boto3.client('s3',aws_access_key_id=ACCESS_KEY,aws_secret_access_key=SECRET_KEY,region_name=region)
etag = s3client.head_object(Bucket='myBucket',Key='index.html')['ResponseMetadata']['HTTPHeaders']['etag']
print(etag)
Пожалуйста, добавьте несколько пояснений к вашему ответу –
Какой метод вы бы рекомендовали проверить для тех же 'ETag' и' Size'? – Borealis
Когда вы извлекаете список объектов с помощью команды ['list-objects'] (https://docs.aws.amazon.com/cli/latest/reference/s3api/list-objects.html), она включает в себя' ETag'. –