Моего CloudSearch в настоящее время не возвращает результатов для one-two three
но он возвращает один результат (правильно) для one two three
(и также будет включен, правильно, в результатах при поиске two three
и т.д.)Можно ли настроить символы разделителя маркеров с помощью AWS Cloudsearch?
Я понимаю, что это потому что поисковые фразы разбиты на свои жетоны (слова) пробелами и пунктуацией, действующими в качестве разделителей. Итак, one
и two
становятся отдельными токенами, но one-two
не действительный токен, поэтому результаты не найдены. Из Cloudsearch docs:
Во время токенизации поток текста в поле разбивается на отдельные лексемы на детектируемых границах, используя правила разрыва слов, определенные в алгоритме сегментации текста Unicode.
Этот документ Юникода is here.
Я хотел был бы иметь возможность найти one-two three
и найти соответствующий результат, а также несколько других знаков препинания, таких как /
. Можно ли настроить это с помощью Cloudsearch?
Это неудобно, вам не нужно менять корпус, чтобы соответствовать ограничениям AWS. Разве он не поддерживает WordDelimiterFilterFactory? – occasl