2016-08-30 2 views
0

Мы взяли большое количество документов, разбитых на сегменты («единицы ответа»), используя сервис Watson's Document Conversion и добавили их в сборку Retrieve и Rank Solr. Если я запускаю запрос против коллекции, используя копию/вставку текста (может быть 150 слов) из одного из блоков ответа, Retrieve и Rank возвращают кучу документов, и (как ожидалось) результаты включают блок ответа, из которого текст запроса был скопирован. Однако эта единица ответа не является самым лучшим результатом; это обычно 7 или 8 документов сверху. Если я окружаю текст запроса кавычками, то Solr по праву считает эту фразу и возвращает только одну единицу ответа. Без кавычек, однако, должен ли документ с точной формулировкой в ​​запросе по-прежнему оставаться верхним документом в результатах?Почему нет документа с точным совпадением первого результата в запросе Retrieve и Rank Solr?

+0

Я не уверен, что RaR поддерживает его, но для обычного Solr, добавляющего 'debugQuery = true' к вашему запросу, вы получите информацию о том, какие термины вносят свой вклад в оценку и почему они оцениваются так, как они. Как рассчитывается оценка, зависит от того, какой класс сходства активен, а RaR может использовать собственный класс (или оценивать документы по другому полю). – MatsLindh

ответ

2

Кажется, вы используете/выбираете конечную точку для поиска. Он не должен быть лучшим результатом, так как он не использует запрос фразы для поиска./select использует логический запрос, который принимает во внимание такие вещи, как idf score, чтобы получить итоговый результат solr. Вы заметили, добавив кавычки, вы можете принудительно вызвать запрос фразы, если ваше приложение захочет это сделать. Теперь это несет ответственность за знание того, какой тип запроса будет использоваться для вашего приложения.

Теперь, если вы используете/fcselect и обучаете систему, с течением времени ранг будет «учиться», что фразы в вашей паре вопросов/документов наиболее важны, если это действительно так. Затем он начнет перераспределять эти документы выше. Это, по сути, точка RnR заключается в том, чтобы узнать из запросов и документов о том, как перенести наиболее релевантные документы на верх, без приложения, требующего написать разные (часто сложные) solr-запросы для поиска документов.

Смежные вопросы