Мне поручено обрабатывать данные SCM с несколькими терабайтами для моей компании. Я создал кластер hadoop и имею сценарий для вывода данных с наших серверов SCM.Проблемы с размером блока Hadoop
Поскольку я обрабатываю данные с помощью пакетов через интерфейс потоковой передачи, я столкнулся с проблемой с размерами блоков, которые, по-видимому, не затрагивает книга O'Reilly Hadoop: что происходит с данными, разделяющими два блока? Как пример wordcount обойти это? Чтобы обойти проблему до сих пор, мы прибегли к тому, чтобы наши входные файлы были меньше 64 МБ каждый.
Проблема возникла снова, когда мы думали о скрипте редуктора; как агрегированные данные хранятся на картах? И возникнет ли проблема при сокращении?
Что такое SCM в вашем случае? – wlk
Мы используем Perforce. – bhargav