2014-02-15 2 views
0

У меня есть очень специфическая проблема в Hadoop.Сочетание двух разных файлов в Hadoop

У меня 2 файла Список пользователей и * raw_data *. Теперь raw_data - довольно большой файл, а список пользователей - сравнительно меньше, чем другой.

Сначала я должен определить количество картографов, и мой список пользователей должен быть разбит на части, равный количеству картографов. Позже он должен быть загружен в распределенный кеш, и он должен сравниться с списком пользователей и выполнять некоторые аналитики и записывать их в редуктор.

Просьба предложить.

спасибо.

+0

Вы случайно записали '' ... это нужно сравнить с userlist и выполнить некоторую аналитику '', а не '' ... она должна сравниться с необработанными данными и выполнить некоторую аналитику ''? – vefthym

ответ

0

Я не понимаю, почему вы хотите разбить файл списка пользователей. Если он мал, загрузите весь файл списка пользователей в распределенный кеш. Затем в методе настройки класса карты каждый картограф будет иметь доступ ко всему файлу списка пользователей. Кроме того, вы можете узнать количество карт и разделить его по своему усмотрению в методе настройки.

Смежные вопросы