Мне нужно прочитать несколько файлов и проиндексировать каждое слово в файлах. во время индексирования я должен следовать формат:Tokenizing and Indexing many files
Требование ==> слово, {d1, TF1, d2, TF2, d4, TF4}, someOtherValue
Объяснение:
1)word = any word in the files
2)d1,d2,d4... are fileId
3) tf1,tf2,tf4....are the number of times the word appears
in d1,d2,d4 respectievly
я создал класс «Токен», который содержит слова из разных файлов как «String token», имя файла, к которому он принадлежит, как «String fileId», и его частота в файле как «Int count».
Я могу легко проверить различные слова в 1 файле и обновить его счет. Я использовал arrayList для этого. Но когда в другом файле появляется такое же слово, как я могу добавить fileId и его счет во время индексации.
Вы пытаетесь создать какое-то приложение для поиска текста. Если да, то вы можете взглянуть на Lucene, который легко выполняет индексирование и поиск. – Shailendra
@Shailendra Я должен сделать это inn java.thats проблема. Все предложения? – radhapiyari
Если вы имеете в виду язык Java, то Lucene написан на Java. Если вам нужно разработать полное приложение для текстового поиска поверх того, чего вы пытаетесь достичь, вы можете попробовать Lucene. – Shailendra