Мне нужно обработать некоторый огромный объем данных. Мне бы хотелось, чтобы он обрабатывался с использованием распределенных вычислений (Масштабируемый). Я получаю данные от apache Solr.On, передавая определенный вход, я получаю огромный набор данных из apache solr. Для каждой записи в этом наборе данных я передам первичный ключ REST api, чтобы получить некоторую информацию, которая будет прикреплена к записи . Затем каждая запись будет подвергаться некоторому обновлению. Каждый обновленный объект в окончательной огромной коллекции будет записан как отдельный XML-файл в папку.Hadoop для обработки данных из Apache solr
ли Hadoop применимо в данном конкретном случае? .Я видел образец WordCount в Hadoop MapReduce documentation.I пытался думать о моей ситуации подобным образом, в котором карту, испускаемого карте уменьшить на 2 узлах будет
Node1 - Map<InputIdToSolr1,Set<RecordsFromSolr1to500>>
Node2 - Map<InputIdToSolr1,Set<RecordsFromSolr500to1000>>
Тогда эти результаты будут объединены функцией уменьшения в hadoop.Unlike wordcount мои узлы будут иметь только один элемент в карте для каждого узла. Я не уверен, что использование hadoop имеет смысл. Какие еще варианты/java-проекты с открытым исходным кодом я могу использовать для масштабирования обработки записей. Я видел Terracotta с весны, но, похоже, это коммерческое приложение.
Я не вижу причин, почему это не сработает. Я работаю над подобным сценарием и получаю результаты от службы на основе REST и передаю ее Hadoop – allthenutsandbolts
Я не говорю, что он не работает. Я просто анализирую все перед запуском. Можете ли я сказать, если мой подход с hadoop в этой ситуации correct/not – aruns