Как найти дубликаты файлов в ведро AWS S3?

Есть ли способ рекурсивно найти дубликаты файлов в ведро Amazon S3? В обычной файловой системе, я бы просто использовать:Как найти дубликаты файлов в ведро AWS S3?

fdupes -r /my/directory

источник

2016-05-06 Borealis

Там нет команды «найти дубликаты» в Amazon S3.

Однако, вы делаете следующее:

Извлечение список объектов в ведре
искать объекты, которые имеют тот жеETag (контрольная сумма) и Size

Они (очень вероятно) были бы дублирующими объектами.

источник

2016-05-06 04:00:27

Какой метод вы бы рекомендовали проверить для тех же 'ETag' и' Size'? – Borealis

Когда вы извлекаете список объектов с помощью команды ['list-objects'] (https://docs.aws.amazon.com/cli/latest/reference/s3api/list-objects.html), она включает в себя' ETag'. –

Вот репозиторий git: https://github.com/chilts/node-awssum-scripts, который имеет файл сценария js, чтобы найти дубликаты в ведре S3. Я знаю, указывая на внешний источник, не рекомендуется, но я надеюсь, что это может вам помочь.

источник

2016-05-06 04:26:42 RaviTezu

import boto3 
s3client = boto3.client('s3',aws_access_key_id=ACCESS_KEY,aws_secret_access_key=SECRET_KEY,region_name=region) 
etag = s3client.head_object(Bucket='myBucket',Key='index.html')['ResponseMetadata']['HTTPHeaders']['etag'] 
print(etag)

источник

2017-12-15 04:21:16

Пожалуйста, добавьте несколько пояснений к вашему ответу –

Как найти дубликаты файлов в ведро AWS S3?

ответ

Смежные вопросы