2012-05-18 2 views
1

Я довольно новичок в Map/Reduce world и пытаюсь оценить лучший вариант, чтобы оценить, могу ли я использовать его для создания индекса в Solr. В настоящее время я использую регулярный обход, чтобы получать данные и индексировать их в Solr напрямую. Это работает без каких-либо проблем.Нужно предложение по использованию Map/Reduce для создания индекса solr

Но в дальнейшем нам нужно получить доступ к значительным данным, находящимся в Amazon S3. В настоящее время в S3 хранится около 5 миллионов данных, которые необходимо индексировать. Я думаю об использовании Amazon Elastic Map/Reduce (EMR) для прямого доступа к содержимому с S3 и последующего создания индекса в Solr. Структура данных проста, url (который является уникальным) является ключом S3, значение представляет собой XML-файл. URL-адрес будет использоваться как идентификатор документа в Solr, в то время как соответствующая часть данных XML будет храниться как поля в индексе Solr.

Вопрос в том, является ли ЭМИ правильным подходом? Задача состоит в том, чтобы получить доступ к данным из S3, извлечь определенные элементы из XML, выполнить некоторую обработку и затем вызвать Solr API для генерации индекса. Перед индексированием данных перед обработкой требуется несколько классов, возможно, цепочка шаблонов команд. Это что-то достижимо? Doo Мне нужен редуктор или вы можете использовать картограф для выполнения этого процесса? Если редуктор нужен, какова его масштаб? В настоящее время у меня есть один индекс, который хранит данные.

Любые указатели на это будут высоко оценены.

Thanks

ответ

0

Вы можете попробовать использовать MapReduceIndexer Tool. Вы можете скачать его с apache-sole. Это часть модуля Contrib.

Смежные вопросы