Я хочу что-то токенизировать данные на основе данных фраз в файле .txt. Обычно запрос фасета дает мне пустое пространство для токенов. Но я хочу, чтобы результат был таким.Как tokenize фраза в Solr и получить грани
для например мои данные «ааа БББ-ссс ддд еее» для поля «test_data» грани должны быть как этот
<lst name="test_data">
<int name="aaa">1</int>
<int name="bbb-ccc">1</int>
<int name="ddd eee">1</int>
</lst>
и Somefile.txt будет «БББ-КТС» & «ДДД еее», как фразы
Благодаря
Но картина не фиксируется. Я хочу, чтобы некоторые фиксированные слова/фразы были обозначены, отдых можно игнорировать. Я хочу указать список в .txt-файле, как в stopwords.txt, для игнорирования некоторых слов. Я хочу прямо противоположно этому, просто включив некоторые предопределенные слова. –