У меня есть очень специфическая проблема в Hadoop.Сочетание двух разных файлов в Hadoop
У меня 2 файла Список пользователей и * raw_data *. Теперь raw_data - довольно большой файл, а список пользователей - сравнительно меньше, чем другой.
Сначала я должен определить количество картографов, и мой список пользователей должен быть разбит на части, равный количеству картографов. Позже он должен быть загружен в распределенный кеш, и он должен сравниться с списком пользователей и выполнять некоторые аналитики и записывать их в редуктор.
Просьба предложить.
спасибо.
Вы случайно записали '' ... это нужно сравнить с userlist и выполнить некоторую аналитику '', а не '' ... она должна сравниться с необработанными данными и выполнить некоторую аналитику ''? – vefthym