2016-11-23 3 views
0

Я не уверен, правильно ли я понял Term Vectors API.Требуется разъяснение API-интерфейса «Term Vector API»

Документ начинается словами:

Возвращает информацию и статистические данные о сроках в области конкретного документа. Документ может быть сохранен в индексе или искусственно предоставлен пользователем. Терминальные векторы по умолчанию являются реальными, а не в реальном времени. Это можно изменить, установив для параметра realtime значение false.

Я предполагаю, термин здесь есть ссылка на то, что некоторые другие люди могли бы назвать токенов может быть? Или термин, определенный к тому времени, когда мы попали сюда в документацию, и я пропустил его?

Затем документ продолжается, говоря, есть три секции к возвращаемому значению: информация Срок, Срочные Статистика и статистика полевых. Я предполагаю, что значение термин информация и статистика - это не единственное, что возвращает API, правильно?

Затем Информация о сроках содержит поле payloads, которое не определено, и я понятия не имею, что это значит.

Тогда в статистики поля, есть сумма частот документа и суммы общих долгосрочных частот с довольно запутанным объяснением:

Установки field_statistics ложного (по умолчанию это правда) опускает :

количество документов (сколько документов содержат это поле)

сумму документа frequen Cies (сумма частот документа для всех членов в этой области)

суммы общих объем срочных частот (сумма общих долгосрочных частот каждого члена в этой области)

Я предполагаю, что они просто сумма по их соответствующим значениям, указанным в term statistics?

Затем в разделе Поведение он говорит:

Термин и полевые статистические данные не точны. Удаленные документы не принимаются во внимание. Информация извлекается только для осколка, в котором находится запрошенный документ. Поэтому термин и статистика поля полезны только как относительные меры, тогда как абсолютные цифры не имеют смысла в этом контексте. По умолчанию при запросе терминальных векторов искусственных документов случайно выбран случай, чтобы получить статистику. Используйте routing, чтобы попасть в конкретный осколок.

Итак, кто это? В реальном времени или нет? Или это то, что термин информация is realtime and term статистика и статистика поля - просто приблизительная реальность?

ответ

2

Я предполагаю, термин здесь относится к тому, что некоторые другие люди могли бы назвать токеном, может быть? Или термин определяется временем, которое мы получаем здесь в документации, и я пропустил его?

term и token являются синонимами и просто означают то, что вышли из процесса анализа и проиндексированные в перевернутом индекс Lucene.

Затем документ продолжает утверждать, что есть три раздела к возвращаемому значению: информация о сроках, статистика времени и статистика поля. Я предполагаю, что термин информация и статистика не являются единственной вещью, которую возвращает API, правильно?

По умолчанию вызов возвращает информацию о сроках и статистику по полю, но для статистики сроков необходимо явно указать &term_statistics=true.

Затем информация о термине включает поле под названием полезных нагрузок, которое не определено, и я понятия не имею, что это значит.

payload это понятие Lucene, который довольно хорошо объяснил here. Срок полезной нагрузки недоступен, если у вас нет пользовательского анализатора, который использует фильтр токенов для их извлечения.

Тогда в статистике на местах, есть сумма частот документа и сумма общих объем срочных частот с довольно запутанным объяснением:

[...]

Я предполагаю, что они просто сумма по их соответствующие значения сообщаются в статистике терминов?

Сумма «частотных частот документа» - это количество раз, когда каждый термин, присутствующий в поле, появляется в том же документе. Поэтому, если поле содержит «большую коричневую лису», оно будет подсчитывать количество раз, когда «большой» появляется в том же документе, количество раз «коричневый» появляется в том же документе и то же самое для «лиса».

Сумма «общих частот частот» представляет собой количество раз, когда каждый член, присутствующий в этом поле, появляется во всех документах, присутствующих в индексе Lucene (который расположен на одной осколке индекса ES). Поэтому, если поле содержит «большую коричневую лисицу», будет подсчитано, что во всех документах появляется количество «больших», количество «коричневых» появляется во всех документах и ​​одинаково для «лисы».

Итак, кто это? В реальном времени или нет? Или это то, что термин информация является в реальном времени, а термин статистики и полевая статистика - всего лишь приблизительная реальность?

Это в режиме реального времени по умолчанию, что означает, что refresh call производится при выдаче _termvectors вызова для того, чтобы получить свежую информацию из индекса Lucene. Однако статистика собирается только из одного осколка, что не дает общего представления статистики всего индекса ES (потенциально из нескольких осколков, следовательно, нескольких индексов Lucene).

Смежные вопросы