У меня есть 500 каталогов и 1000 файлов (каждая около 3-4 тыс. Строк) для каждой директории. Я хочу запустить такую же программу clojure (уже написанную) для каждого из этих файлов. У меня 4 октановых сервера. что является хорошим способом распространения процессов в этих ядрах? cascalog (hadoop + clojure)?clojure: параллельная обработка с использованием нескольких компьютеров
в основном, программа считывает в файл, использует 3 участник Java банка, чтобы сделать вычисление, и вставляет результаты в БД
отметить, что: 1. будучи в состоянии использовать 3-библиотеки/баночка обязательный 2. нет никаких запросов
До сих пор я была обработкой одного каталога в то время, на 1 сервер, используя «PMAP». но для обработки 500 каталогов, мне нужно масштабировать по горизонтали –
вы считали о STORM? –
@ shawn-zhang благодарит за предложение, я посмотрю его. Тем не менее, я никогда не делал обработку «больших данных» и не знаю многих опций, отличных от самых популярных, таких как hadoop, или найден из основного поиска, такого как cascalog и т. д. –