0

ФонAmazon Kinesis аналитика для данных архивных

Я обнаружил, что Amazon Kinesis Analytics, можно использовать для потоковой передачи данных, а также данных, присутствующих в S3 ведро.

Однако, есть некоторые упоминания в документации, которые ставят меня в дилемму, относительно того, можно ли использовать Amazon Kinesis Analytics для огромного количества существующих данных в ведро S3. Код

Authoring Применение

Мы рекомендуем следующее:

• В вашем SQL заявления, мы рекомендуем вам не указать окно времени на основе, которая больше, чем один час по следующим причинам:

  1. Если приложение необходимо перезапустить, либо из-за того, что вы обновили приложение, либо по внутренним причинам Amazon Kinesis Analytics, все данные, включенные в окно, должны быть снова прочитаны из источника данных потоковой передачи. Это займет некоторое время, прежде чем Amazon Kinesis Analytics сможет выпустить вывод для этого окна.
  2. Если приложение необходимо перезапустить, либо из-за того, что вы обновили приложение, либо по внутренним причинам Amazon Kinesis Analytics, все данные, включенные в окно, должны быть снова прочитаны из источника данных потоковой передачи. Это займет некоторое время, прежде чем Amazon Kinesis Analytics сможет выпустить вывод для этого окна.
  3. Amazon Kinesis Analytics должна поддерживать все, что связано с состоянием приложения, включая соответствующие данные, на время. Это потребует значительных блоков обработки данных Amazon Kinesis Analytics.

Запрос

Любые мысли, будет ли Amazon Kinesis Analytics хорошо для этой задачи.

ответ

1

Основной случай использования Amazon Kinesis Analytics - обработка данных потока. По этой причине вы присоединяете приложение Amazon Kinesis Analytics к потоковому источнику данных. Вы можете дополнительно указать ссылочные данные от S3, который в настоящее время ограничен размером до 1 ГБ. Мы будем загружать данные из объекта S3 в таблицу SQL, которую вы можете использовать для обогащения входящего потока.

Похоже, вам нужен инструмент общего назначения для запроса данных из S3, а не для обработки данных потока. Я бы рекомендовал посмотреть на Presto и Amazon EMR вместо использования Amazon Kinesis Analytics.

Отказ от ответственности: Я работаю в команде Amazon Kinesis.

+0

Amazon Athena запущен в ноябре 2016 года, поэтому я также посмотрю на это: https://aws.amazon.com/athena/ – RyanN

Смежные вопросы