Что касается базового примера WordCount: https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Я знаю, что HDFS делит файлы в блоках и отображает задачи на одном блоке. Таким образом, нет гарантии, что блок, проанализированный с помощью задачи карты, не будет содержать слово, продолжающееся в следующем блоке, вызывая ошибку (одно слово подсчитывается дважды). Я знаю, что это пример и всегда отображается небольшим файлом, но не будет проблемой в реальных сценариях?Hadoop MapReduce Пример примера WordCount?
0
A
ответ
1
В Hadoop вы работаете с входными расщеплениями, а не на блоках. Разделение ввода - это полный набор данных. Вы хотите избежать случая, когда один картограф пересекает два разделения, так как это снижает производительность, а также создает трафик.
В текстовом мире, скажем, вы находитесь в блоке 1, и у вас есть предложение, такое как «Я Ха», а block2 продолжается с «разработчиком doop», тогда это создает сетевой трафик, поскольку мы всегда должны работать над узел с полным разделением входных данных и некоторые данные должны быть перенесены на другой узел.
Смежные вопросы
- 1. Пример примера в Wordcount
- 2. Hadoop MapReduce WordCount пример получает неожиданно прерван
- 3. Hadoop Mapreduce wordcount
- 4. Hadoop - Классический MapReduce WordCount
- 5. hadoop mapreduce wordcount program
- 6. Hadoop WordCount Пример
- 7. Поймите Hadoop WordCount пример
- 8. MapReduce WordCount пример содержит два картографов v2.5.1
- 9. Не удается выполнить основной пример Hadoop Mapreduce Wordcount
- 10. работает Hadoop WordCount примера с заводной
- 11. Пример Hadoop WordCount - Реализация Сортировка
- 12. Попытка осмыслить базовый пример WordCount MapReduce
- 13. Недействительный JAR от тестирования hadoop mapreduce wordcount
- 14. Реализация примера wordcount и получение следующей ошибки
- 15. Hadoop WordCount Объединитель
- 16. не удалось запустить пример использования примера hadoop?
- 17. Hadoop MapReduce пример преобразования строки
- 18. Цепочка Hadoop MapReduce 1.1.1 Пример
- 19. Hadoop MapReduce
- 20. Hadoop Трубы WordCount пример: NullPointerException в LocalJobRunner
- 21. Cassandra Hadoop Integration и Wordcount Пример
- 22. Hadoop C++, ошибка запуска WordCount пример
- 23. Компиляция Hadoop wordcount tutorial - hadoop 2.6.3
- 24. запустить пример WordCount "Exception в потоке„главный“
- 25. Запустить пример карты примера WordCount на AWS EMR
- 26. Hadoop MapReduce wordcount tutorial error: Путь ввода не существует
- 27. Ошибка при использовании Hadoop Пример Mapreduce в hadoop 2.2.0
- 28. Файл задания токена не найден при запуске примера Hadoop wordcount
- 29. Hadoop WordCount пример застрял на карте 100% 0% уменьшить
- 30. Сводный пример wordcount пример
Вы имеете в виду, что блок, обработанный заданием карты, не будет содержать разбиений? –
@RajenRaiyarelaI означает, что они могут содержать одно и то же слово: начало слова в первом блоке и окончание во втором блоке. –
Возможный дубликат [Как записи процесса Hadoop разбиваются по границам блоков?] (Http://stackoverflow.com/questions/14291170/how-does-hadoop-process-records-split-across-block-boundaries) –