Скажем, если я хочу, чтобы преобразовать 1000s из слова файлы в формате PDF, то будет с помощью Hadoop подойти к этой проблеме имеет смысл? Использование Hadoop имеет любое преимущество через простое использование нескольких экземпляров EC2 с очередями заданий?
Я думаю, что любой инструмент может выполнить эту задачу, поэтому это зависит от того, что вы планируете делать с документами после преобразования. Дерек Готфрид в New York Times famously нашел Hadoop полезным инструментом для крупномасштабного преобразования документов, поэтому он, безусловно, входит в сферу задач, на которых Hadoop хорошо работает.
Кроме того, если был один файл и 10 бесплатных узлов, то будет Hadoop разбить файл и отправить его в 10 узлов или будет файла будет отправлены только один узел, а -простаивать?
Это зависит от используемого вами InputFormat. Как вы можете видеть в документации, вы можете указать, как вычислить «InputSplits», который может включать разделение большого документа на куски.
Удачи вам в любом инструменте, который вы выбрали для этой проблемы!
С уважением, Джефф