2016-05-19 2 views
0

У нас есть куча pdf-документов, доступных в EMC Documentum У нас есть требование, чтобы мы интегрировали Apache solr с Documentum, чтобы мы могли искать конкретный документ в Solr, и мы можем получить документы из DocumentumИнтеграция Solr с EMC Documentum

Я посмотрел в ниже ссылку, которая не является достаточной информацией https://community.emc.com/docs/DOC-6520

Помощь действительно appriciated

ответ

1

ссылки вы выложили бы получить вам рабочее решение. Этот автор предлагает написать пользовательский искатель, который подключается к репозиторию Documentum, а затем использовать Apache Tika для выполнения извлечения контента для Solr.

Однако я хотел бы предложить вам использовать

  • Apache ManifoldCF выступать в качестве искателя, который получает содержимое из Documentum в Solr. Вы не должны писать это вручную, поскольку это уже сделано и протестировано.

    Apache ManifoldCF - это приложение, обеспечивающее открытую исходную среду для подключения репозиториев исходного контента, таких как Microsoft Sharepoint и EMC Documentum, для целевых репозиториев или индексов, таких как Apache Solr, Open Search Server или ElasticSearch. Apache ManifoldCF также определяет модель безопасности для целевых репозиториев, которая позволяет им применять политики безопасности исходного архива.

  • Apache Tika для выполнения извлечения содержимого (PDF в текст), чтобы содержимое документов можно было искать в Solr позже.

    Инструментарий Apache Tika ™ обнаруживает и извлекает метаданные и текст из более чем тысячи различных типов файлов (таких как PPT, XLS и PDF). Все эти типы файлов могут анализироваться через один интерфейс, что делает Tika полезной для индексирования поисковых систем, анализа контента, перевода и т. Д.

0

Я построил свой собственный соединитель для извлечения данных из Documentum и вставить в Elasticsearch или Solr, и я готов поделиться. свяжитесь со мной

Смежные вопросы