Я новичок в hadoop и недавно познакомился с технологией MapReduce. Это впечатляет, однако я абсолютный новичок в решении тренировки для проблемы с mapreduce. Любая помощь в правильном направлении была бы оценена. У меня есть логический подход со мной, но я не знаю, как сопоставить его с хаопом.Как найти логин с использованием hadoop mapreduce
Описание проблемы: Мне нужно найти Login Duration на каждом сервере в моей организации. Входы: Есть две вкладки значений, разделенных файлы, предоставленные в качестве входных данных со следующей структурой:
File1:
UserName Timestamp serverid
CMXO001 02-Jan-2014 12:00:00.234567 HP0012XP023
CMXO001 02-Jan-2014 12:10:20.234567 HP0012XP023
Выше файл содержит логин и corressponding выхода из системы записи, которые могут быть в любом порядке в файле ввода.
File2:
ServerId ServerName
HP0012XP023 HP XP Server London
Мы должны написать работу Hadoop MapReduce выполнить следующие действия:
1: Узнайте, логины выполняется каждый день для каждого сервера [нет необходимости имени сервера] Ожидаемый результат: Дата LoginCount сервера 91 -01-2014 HP0012XP023 1
2: Узнайте, общее время входа в систему [общее время соединения] для каждого пользователя во всем наборе данных для каждого сервера
expected output:
Date ServerName User Durationfor that day
10/01/14 HP XP Server London CMXO001 10:20
3: Найдите, какие пользователи подключили сеанс входа в систему более 1 часа, по крайней мере, 5 раз в месяц.
Expected output:
Username Times
CMXO001 12
Это звучит как очень хороший подход. Я собираюсь попробовать это и предоставить обратную связь. – cbm
Спасибо за помощь Евгения, ты указал в правильном направлении. Были икоты в использовании распределенного кеша и других функций, но это не мешало сделать это.Функции, связанные с распределенным кэшем, устарели и не очень помогают в нем или могут быть я новыми :) – cbm
Распределенный кеш - одна из самых полезных функций Hadoop MapReduce. Я думаю, вы посмотрели org.apache.hadoop.filecache.DistributedCache из старого API Hadoop. Я рекомендую вам прочитать о распределенном кэше в полном справочнике Hadoop от Tom White (3-е издание!). –