2015-09-14 3 views
1

Мне нужно будет получить список всех документов в индексе/коллекции GSA 7, которые имеют одну или несколько конкретных ссылок. Итак, у меня есть список URL-адресов и вам нужно найти любые документы, которые содержат их (в теле документа, а не метаданных). Существует около 700 000 документов, поданных из UCM (они индексируются полнотекстовым текстом). Количество документов, содержащих ссылки, слишком велико, чтобы получить его через регулярный поиск. Есть ли способ OOTB, чтобы добраться до этого? Каким будет путь? Я думал о создании отдельной коллекции, но критерии фильтрации работают только на URL-адресах, а не на содержимое файлов.GSA - Получить подмножество индекса

Спасибо заранее, Z

ответ

1

Использование Entity Recognition вы можете пометить каждый документ, содержащий шаблон URL (ы), которые вы заинтересованы в с определенной частью метаданных. Затем вы можете использовать этот сгенерированный тег метаданных, чтобы отфильтровать результаты только до тех, которые вас интересуют. К сожалению, вы по-прежнему полагаетесь на запуск поиска, чтобы найти их, и вам нужно будет дождаться, пока GSA повторно сканирует весь ваш контент после создания правила ER, прежде чем вы сможете искать эти документы.

В качестве альтернативы, если вы кормите их из соединителя, вы можете добавить Document Filter, который проверяет содержимое каждого загружаемого файла и затем записывает URL-адрес текущего документа где-нибудь (например: файл, db или webservice), если он содержит образец, который вы ищете. Это все равно потребует повторного обхода, но по крайней мере вам не нужно запускать поиск, чтобы найти совпадения, вы можете просто проконсультироваться с вашим журналом.

+0

Это две хорошие идеи, о которых я не знал, спасибо. Один вопрос относительно DocumentFilter: я вижу, как метаданные можно легко изменить. Но как я могу ссылаться на текст внутри документа (если есть способ)? Поэтому в моем случае мне нужно будет найти кучу URL-адресов. Использую ли я контент и рассматриваю его как обычный тег? Кроме того, возможно ли изменить тело документа? Я бы предположил, что нет. – user1681189

+0

Прошло некоторое время с тех пор, как я пробовал, но да, я уверен, что если вы реализуете свой собственный класс DocumentFilter, вы сможете получить доступ к контенту. Если я смогу найти пример, я отредактирую свой ответ. – BigMikeW

Смежные вопросы