2009-12-29 2 views
0

Скажите, хочу ли я преобразовать 1000 слов из текстовых файлов в pdf, а затем использовать Hadoop для решения этой проблемы? Будет ли использование Hadoop иметь какое-либо преимущество перед простое использование нескольких экземпляров EC2 с очередями заданий?Преобразование слова docs в pdf с использованием Hadoop

Кроме того, если бы было 1 файл и 10 свободных узлов, то hadoop разделил бы файл и отправил его на 10 узлов или будет отправлен файл только одному узлу, а 9 сидеть без дела?

ответ

2

Существует не так много преимуществ при использовании hadoop для этого варианта использования. Наличие конкурирующих потребителей, читаемых из очереди, и выпуск продукции будет намного проще в настройке и, вероятно, будет более эффективным.

Hadoop не будет автоматически разделять документы и обрабатывать разделы на разных узлах. Хотя если бы у вас была действительно большая (много тысяч страниц), то случай использования Hadoop имел бы смысл - но только тогда, когда время для создания pdf-файла на одной машине имеет большое значение.

Задачи карты могут печатать несколько тысяч страниц каждый, а задача уменьшения объединить PDF-файлы в один документ - хотя чтение полученного файла может быть трудночитаемым, если оно очень велико.

1

Скажем, если я хочу, чтобы преобразовать 1000s из слова файлы в формате PDF, то будет с помощью Hadoop подойти к этой проблеме имеет смысл? Использование Hadoop имеет любое преимущество через простое использование нескольких экземпляров EC2 с очередями заданий?

Я думаю, что любой инструмент может выполнить эту задачу, поэтому это зависит от того, что вы планируете делать с документами после преобразования. Дерек Готфрид в New York Times famously нашел Hadoop полезным инструментом для крупномасштабного преобразования документов, поэтому он, безусловно, входит в сферу задач, на которых Hadoop хорошо работает.

Кроме того, если был один файл и 10 бесплатных узлов, то будет Hadoop разбить файл и отправить его в 10 узлов или будет файла будет отправлены только один узел, а -простаивать?

Это зависит от используемого вами InputFormat. Как вы можете видеть в документации, вы можете указать, как вычислить «InputSplits», который может включать разделение большого документа на куски.

Удачи вам в любом инструменте, который вы выбрали для этой проблемы!

С уважением, Джефф

0

Сколько 1000-х вы говорите? Если это отдельная партия, я бы установил ее на одной машине и просто позволил ей работать, вы будете удивлены, я думаю, насколько быстро вы можете конвертировать 1000 документов Docs в PDF, даже если вам нужно запустить задачу для через пару дней, если его когда-то конвертировать, тогда нет необходимости в таких осложнениях, как Hadoop. Если вы постоянно конвертируете 1000 документов, то, вероятно, стоит усилий по настройке чего-то другого.

Смежные вопросы