Мой пользовательский процесс - это периодический процесс обработки журналов доступа S3 (имеющих эти 18 полей) и нажатия на стол в RDS. Я использую конвейер данных AWS для выполнения этой задачи каждый день, чтобы обрабатывать журналы предыдущего дня.протоколы доступа к процессу s3 с использованием базы данных AWS
я решил разделить задачу на два вида деятельности 1. Командная оболочка Активность: Для обработки журналов доступа s3 и создать файл CSV 2. Улей активность: Для чтения данных из CSV-файла и вставить в таблицу RDS.
В моем ведомости s3 есть много файлов журналов, поэтому первое действие выходит из строя из-за ошибки в памяти при постановке. Однако я не хочу создавать все журналы, для меня достаточно записи журнала предыдущего дня. Я искал в Интернете, но не получил никакого решения. Как мне это достичь? Является ли мое решение оптимальным? Существует ли какое-либо решение лучше этого? Любые предложения будут полезны
Спасибо заранее
Вот список выражений, которые вы можете использовать: http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-reference-functions-datetime.html –
Спасибо за ур ответ .. Когда я дал выражение, которое пытается сопоставить с точным именем, но в файлах журналов есть некоторый префикс, добавленный к отметке времени. Я пытался давать регулярные выражения, а многие другие методы ничего не работали, не могли найти никакой информации в aws docs .. Знаете ли вы каким-то образом делать то, что я хочу? – ramya
Я узнал, что дата-линия AWS не поддерживает обработку регулярных выражений. Когда вы разрешаете ведение журнала для ведра, возможно ли ежедневно создавать папки и размещать журналы доступа в этот день в S3? Если это возможно, как мне это достичь? – ramya