Пример: У меня есть 100 серверов, каждая из которых имеет часть индекса поиска. Когда клиент делает поиск, я использую hadoop для прохождения этих серверов и выбора результатов. Результаты должны быть отсортированы.Сортировка Hadoop для массивных данных
Проблема заключается в том, что общий объем данных, выводимых из каждой отдельной задачи, больше, чем память (ОЗУ и жесткий диск) на сервере, фактически выполняющем задание, поэтому я не могу сортировать.
Что такое правильный способ решить эту проблему?
И следующий вопрос - я хочу иметь нумерацию страниц в результатах поиска - при условии, огромное количества данных, - я не могу использовать любой кэш ...
благодаря
Я не думаю, что здесь достаточно информации, чтобы ответить. Может быть, вы могли бы описать, что вы делаете на своей карте, и уменьшить количество шагов, а на каком этапе - нехватка памяти? Также может быть полезно описание того, как выглядят ваши данные. – Brabster
Это чисто теоретический вопрос: что, если шаг уменьшения попадет на большой объем данных? –
Hadoop для поиска? Вы серьезно? – Tariq