Lucene: Как использовать StandardTokenizer в сочетании с моим собственным Tokenizer

Я строю токенизатор, который будет принимать текст и разбивать на белые пробелы, а также добавлять маркеры предложения и абзаца (here's a question related to that if you're interested), но в дополнение к выполнению этого я хотел бы чтобы также иметь возможность запускать StandardTokenizer (и StandardFilter), чтобы я мог получить более умную токенизацию слов. Здесь у меня есть какая-то уловка22.Lucene: Как использовать StandardTokenizer в сочетании с моим собственным Tokenizer

Если я бегу StandardTokenizer (и, возможно, StandardFilter) первый, то я умнее лексемизацию, но у меня нет каких-либо знаков препинания/пробелы/прописные буквы, на которых основывать свое обнаружение предложение/пункт.
Если я сначала использую свой токенизатор, то я могу включить необходимые маркеры для предложений и абзацев, но я не могу воспользоваться умной символикой стандартного Tokenizer и, конечно, не могу воспользоваться стандартным фильтром, который требует, чтобы StandardTokenizer уже запущен.

Какую модель следует использовать, чтобы обойти это? Практически я, вероятно, просто хочу увеличить TokenStream StandardTokenizer с помощью маркеров предложения и абзаца. Хотя в целом я мог бы использовать токенизатор предложения/абзаца с любым другим токенизатором.

источник

2012-05-15 JnBrymn

Фактически вы можете изменить грамматику стандарта StandardTokenizer и создать Tokenizer для своих пользовательских требований. Это то, что я сделал при Generating a custom Tokenizer for new TokenStream API using JFlex/ Java CC

источник

2012-05-16 12:13:41 naresh

Lucene: Как использовать StandardTokenizer в сочетании с моим собственным Tokenizer

ответ

Смежные вопросы