У меня есть домашнее задание, в котором я должен получить общее количество различных слов в определенном документе.Извлечь количество сокращаемых групп ввода в Hadoop
Это очень похоже на пример WordCount, предоставленный Hadoop. Но теперь я просто хочу, чтобы общее количество различных слов в документе. На выходе консоли количество сокращаемых входных групп соответствует общему количеству различных слов.
Есть ли простой способ получить это число, даже не уменьшая данные. Или Map/Reduce не способ решить эту проблему. Цепочка также может быть решением, но поскольку ответ уже представлен на консольном выходе задания, мне интересно, не существует ли простого способа получить количество сокращаемых входных групп, не делая ненужных материалов.
Привет, Hadoop пришлые
Спасибо за ввод. Теперь я использую значение счетчика «уменьшить входные группы». Это можно найти, используя следующий метод экземпляра 'Job' job.getCounters(). FindCounter (" org.apache.hadoop.mapred.Task $ Counter "," REDUCE_INPUT_GROUPS ")'. Im с использованием Hadoop 1.0.0 – roelio