2012-05-15 5 views
1

Я строю токенизатор, который будет принимать текст и разбивать на белые пробелы, а также добавлять маркеры предложения и абзаца (here's a question related to that if you're interested), но в дополнение к выполнению этого я хотел бы чтобы также иметь возможность запускать StandardTokenizer (и StandardFilter), чтобы я мог получить более умную токенизацию слов. Здесь у меня есть какая-то уловка22.Lucene: Как использовать StandardTokenizer в сочетании с моим собственным Tokenizer

  • Если я бегу StandardTokenizer (и, возможно, StandardFilter) первый, то я умнее лексемизацию, но у меня нет каких-либо знаков препинания/пробелы/прописные буквы, на которых основывать свое обнаружение предложение/пункт.
  • Если я сначала использую свой токенизатор, то я могу включить необходимые маркеры для предложений и абзацев, но я не могу воспользоваться умной символикой стандартного Tokenizer и, конечно, не могу воспользоваться стандартным фильтром, который требует, чтобы StandardTokenizer уже запущен.

Какую модель следует использовать, чтобы обойти это? Практически я, вероятно, просто хочу увеличить TokenStream StandardTokenizer с помощью маркеров предложения и абзаца. Хотя в целом я мог бы использовать токенизатор предложения/абзаца с любым другим токенизатором.

ответ

Смежные вопросы