Я новичок в pylucene, и я пытаюсь создать собственный анализатор, который токенизирует текст только на основе подчеркивания, т. Е. Он должен сохранять пробелы. Пример: «Hi_this is_awesome» должен быть обозначен в [«привет», «это», «удивительный»] токены.Пользовательский токенизатор для пилюкена, который символизирует текст, основанный только на символах подчеркивания (сохраняет пробелы)
Из различных примеров кода я понял, что мне нужно переопределить метод incrementToken для CustomTokenizer и написать CustomAnalyzer, для которого TokenStream должен использовать CustomTokenizer, за которым следует LowerCaseFilter, чтобы добиться того же.
У меня возникли проблемы с внедрением метода incrementToken и подключения точек (как может использоваться токенизатор, как обычно, анализы зависят от TokenFilter, которые зависят от TokenStreams), поскольку на пилюкене имеется очень мало документации.
Было бы полезно, чтобы увидеть, что у вас так далеко. – femtoRgon