У меня есть много небольших текстов (скажем, около 500 слов) и двух баз данных с примерно 10.000 записей каждый (ключевые слова).Эффективный поиск по небольшому тексту
Теперь я хочу обработать каждый текст и узнать, какие ключевые слова (сохраненные в 2 базах данных) содержатся в тексте.
У кого-нибудь из вас есть хороший подход к тому, как это сделать эффективно?
Я хотел обработать каждый текст и проиндексировать его (возможно, с помощью lucene), прежде чем искать базу данных против него, но я действительно не знаю, подходит ли lucene для этого.
спасибо, что я уже думал о вашем первом подходе к ramdisk. но почему вы рекомендуете «termenum». как я понимаю, termenum пригодится, когда вам нужна частота данного слова в тексте – Nicolas
@Nicolas: Я думаю, что вы имеете в виду TermFreqVector. TermEnum предоставляет вам все термины в index => все термины в документе, который вы указали с помощью RAMDirectory. – csupnig