2017-01-23 6 views
0

Для получения типа настройки, где TBs записей будут записаны на темы KAFKA, какова наилучшая практика использования соединителя KAFKA - разъем HDFS?Лучшая практика использования соединения kafka

Мой экземпляр kafka работает на AWS-хосте a.b.c.d, а мой хаоп-имямен находится на AWS-хосте p.q.r.s. Для целей разработки/POC мы продолжаем сливаться в том же поле, что и экземпляр kafka, работающий, например, на a.b.c.d. Размер кластера HDFS составляет 500 ГБ.

Но для установки типа производства, где размер кластера будет составлять 20-30 ТБ, целесообразно ли сливаться в том же поле, что и экземпляр KAFKA, или в поле Namenode или в отдельной коробке? Сколько отдельного размера диска было бы конфлюентным в таком случае производства?

ответ

1

Я предполагаю, что вы имеете в виду сотрудников Connect, когда вы говорите «конфлюент», поэтому этот комментарий основан на этом предположении. Наиболее целесообразной задачей является предоставление отдельных услуг, где это возможно. Запускайте рабочих отдельно от брокеров отдельно от NameNode. Для подключения рабочих требуется очень мало места на диске, так как они не хранят данные (кроме данных смещения в автономном режиме). В распределенном режиме вы можете масштабировать работников эластично, поэтому разделение вещей также лучше для долгосрочной масштабируемой настройки.

Для вашего варианта использования вам действительно нужно проверить, чтобы производительность была приемлемой, если вы хотите запускать вещи в одной коробке. Выяснить, нормально ли совмещать локализацию, действительно является консультационным вопросом, который требует подробностей вашего варианта использования на уровне, который, вероятно, не подходит для онлайн-форума.

Смежные вопросы