2016-09-12 3 views
2

Я ищу, чтобы потреблять из Kafka и сохранять данные в Hadoop и Elasticsearch. Я видел два способа сделать это в настоящее время: используя Filebeat для потребления из Kafka и отправляйте его в ES и используя инфраструктуру Kafka-Connect. Существует модуль Kafka-Connect-HDFS и Kafka-Connect-Elasticsearch.Kafka-Connect vs Filebeat & Logstash

Я не уверен, какой из них можно использовать для отправки потоковых данных. Хотя я думаю, что если я захочу в какой-то момент взять данные из Kafka и поместить его в Cassandra, я могу использовать для этого модуль Kafka-Connect, но такой функции для Filebeat не существует.

+0

Я не понимаю, почему здесь используется Filebeat. Он считывает файлы, а не сообщения TCP от Kafka. Вам не нужны биты, просто Logstash –

ответ

2

Kafka Connect может обрабатывать потоковые данные и является более гибким. Если вы просто собираетесь эластично, Filebeat - это чистая интеграция для журнальных источников. Однако, если вы отправляетесь из Kafka в несколько разных раковин, Kafka Connect, вероятно, вы хотите. Я бы рекомендовал проверить концентратор соединителя, чтобы увидеть некоторые примеры разъемов с открытым исходным кодом в вашем распоряжении в настоящее время http://www.confluent.io/product/connectors/

+2

Дело в том, что я согласен с вами, но у меня нет никаких доказательств того, почему один способ лучше другого. Не могли бы вы немного расширить свой ответ? – Adrian

+1

Полное раскрытие информации, я прихожу к этому с точки зрения кафки. Я думаю, что Kafka Connect, как правило, более гибкий и подключаемый для работы с данными Kafka, идущими в или из другого хранилища данных. Filebeat специализируется на перемещении данных в эластичные, поэтому дизайн не является общим. – dawsaw

+2

есть ли информация об эффективности между этими параметрами? – imehl

Смежные вопросы