У меня есть один главный узел и два узла данных, которые находятся на разных серверах. Для двух узлов данных каждый из них имеет файл журнала в своем собственном HDFS. Теперь я хочу запустить Hadoop, чтобы сделать карту/уменьшить на главном узле, а вход должен быть двумя файлами журнала из HDFS двух узлов данных. Я могу сделать это? Если смогу, как установить путь ввода? (например, hasoop jar wordcount.jar datanode1/input/logfile1 datanode2/input/logfile2 output ... как это?) Возможно ли, что входные данные из HDFS разных datanode, которые находятся на разных серверах?Вход Hadoop с разных серверов
ответ
Когда вы говорите Hadoop, нет ничего подобного своей собственной HDFS. HDFS является распределенным FS и является с распространением на всех машинах в кластере Hadoop, функционирующих как единый FS.
Вам просто нужно поместить оба файла в один каталог HDFS и предоставить этот каталог в качестве входных данных для задания MapReduce.
FileInputFormat.addInputPath(job, new Path("/path/to/the/input/directory"));
То же самое относится и к заданиям MapReduce. Несмотря на то, что вы отправляете свою работу в JobTracker, работа фактически выполняется в распределенной моде на всех узлах вашего кластера, где присутствуют данные для обработки.
О, еще одна вещь ... Файл в HDFS не сохраняется в целом на какой-либо конкретной машине. Он нарезается небольшими блоками из 64 МБ (настраивается), и эти блоки хранятся на разных машинах случайным образом в вашем кластере.
- 1. Объединение таблиц с разных серверов
- 2. Обслуживание пользователя с разных серверов
- 3. Пользовательский двоичный вход - Hadoop
- 4. Вход Hadoop/MapReduce
- 5. Hadoop вход сплит (MapV1)
- 6. Работа с несколькими репозиториями с разных серверов
- 7. Prestashop multi магазины разных серверов
- 8. Использование частных + общедоступных разных серверов
- 9. Динамические новости, требуемые с разных серверов хостинга
- 10. MySQL. Объединение таблиц с разных серверов
- 11. Подключение к нескольким БД с разных серверов
- 12. C# файлы доступа с разных серверов
- 13. Perl: Синхронизация двух таблиц с разных серверов
- 14. Связывание двух БД с 2 разных серверов
- 15. Как получить данные XML с разных серверов?
- 16. Получение изображений с двух разных серверов
- 17. Сравнение вывода запросов с двух разных серверов
- 18. Доступ к базам данных с разных серверов
- 19. .screenrc и вход на несколько удаленных серверов
- 20. Получить различную регистрацию GCM для разных серверов
- 21. Как определить таблицу двух разных серверов
- 22. Веб-сайт отличается от разных серверов
- 23. Nginx Обратный прокси-сервер для разных серверов
- 24. как синхронизировать две базы данных разных серверов?
- 25. различные файлы конфигурации для разных серверов
- 26. Как настроить приложение Catalyst для разных серверов?
- 27. Как разовой аутентификации для двух разных серверов?
- 28. c3p0 - Запросы пула подключений для разных серверов
- 29. Получение данных с двух разных серверов с помощью TOAD
- 30. Сравнение двух таблиц с разных серверов с использованием PHP
Звучит хорошо. Спасибо. Еще одна вещь, если я хочу запустить hasoop с моим собственным методом map/reduce, так же, как это: hasoop jar xxx.jar input output ... правильно? – user2552010
Вы правы. Не стесняйтесь принять ответ, если вы чувствуете, что ответили на ваш запрос, чтобы другие могли извлечь из этого пользу. – Tariq
Привет: О Hadoop, у меня также есть следующий вопрос: – user2552010