2014-02-17 4 views
0

Мне нужно создать программу для уменьшения карты, которая считывает файл Excel из HDFS и делает некоторый анализ на нем. Оттуда сохраните вывод в формате файла excel. Я знаю, что TextInputFormat используется для чтения TXT-файла из HDFS, но какой метод или какой inputformat мне следует использовать?Hadoop InputFormat for Excel

+0

Что такое прецедент? Это один входной файл? Что это за размер? Вы используете его в приложении excel или используете только формат? Работа с excel подходит для относительно небольших файлов Работа с hadoop подходит для очень больших наборов данных –

+0

Мне нужно получить только один Excel-файл из HDFS. Размер файла - 1913 КБ. Мне нужно обработать этот файл в псевдораспределенном одномодовом кластере. –

+0

Можем ли мы прочитать этот файл excel непосредственно из кластера hadoop. Каков тип inputformat, который мне нужно использовать в конфигурации Job –

ответ

0

Вообще, Hadoop является излишеством для этого сценария, но некоторые соответствующие решения

  1. разобрать файл внешне и преобразовать в Hadoop совместимого формата

  2. прочитать весь файл в виде одной записи see this answer

  3. использование двух цепей. 1-й, как в 2, читает файл навалом и испускает каждую запись в качестве ввода для следующего задания.

Смежные вопросы