2012-02-15 3 views
1

У меня проблемы с индексацией имен элементов с помощью цифр и символов. образец моих данных показано ниже:Какой подходящий анализатор люцинов использовать?

ANGLE BARS ORANGE - 4.0MM 2 - 1/2" 
B.I SQUARE TUBING  2" X 3" 
B.I. PIPE S-40 10MM 3/8" 
B.I SQUARE TUBING  1" X 2" 
PLYWOOD MARINE 3/4X4X8 
PLYWOOD STA. CLARA 1/8X4X8 
PLYWOOD STA. CLARA 3/16X4X8 

я хочу разметить мои данные в белых или завершающие пробелы, не опуская символы, потому что эти символы очень важны. так что всякий раз, когда я ищу «фанера sta. clara», «b.i square 2» X 3 », или« angle orange 2 - 1/2 », даст мне результат. Я попытался использовать анализатор пробелов, но символы отбрасываются. Я также попробовал standardanalyzer, но остановки слова и символы также отбрасываются. что лучше использовать анализатор?

ответ

3

Вы можете использовать PatternAnalyzer написав регулярное выражение или создать Custom Analyzer.

+0

будет я также использовать PatternAnalyzer при поиске? – maccramers

+0

Да. Вы должны использовать тот же анализатор при индексировании и поиске. –

0

Попробуйте использовать org.apache.lucene.analysis.miscellaneous.PatternAnalyzer. Вы можете предоставить регулярное выражение для определения разделителей токенов.

Смежные вопросы