Я новичок в Hadoop и играю с примером WordCount
.Фильтрация вывода в hadoop
Я столкнулся с проблемой, которая меня сбивает с толку. Если я беру количество слов из текстового файла, и я хочу, например, фильтровать его таким образом, чтобы на выходе выводились только слова длиной более 5 букв, мне нужно выполнить 2 задания для этого?
Первое задание для подсчета слов и второго задания для фильтрации слов короче 5 букв?
Или я могу просто написать логику в редуктор, который не записывает слово в файл результата, если есть менее 5 вхождений? Это приведет к недопустимому результату, если есть несколько экземпляров работающего редуктора?