Я ищу алгоритм, подсказку или любой исходный код, который может решить мою следующую проблему.Как посчитать слова в java
У меня есть папка, в которой содержится много текстовых файлов. Я прочитал их и сохранил весь текст в STRING. Теперь я хочу рассчитать, если какое-либо слово появилось в других файлах или нет. (Я знаю, что его не ясно, позвольте мне привести пример)
Например у меня есть два документа: Doc A => «коричневая лиса прыжок» Doc B => «собака не прыгать» Doc C => «лис прыгать собака "
Скажем, моя программа прочитала первый документ, и теперь первое слово« коричневое »теперь моя программа проверит, появилось ли это слово в любом другом документе? Таким образом, ответ будет равен 0. Теперь он снова проверит второе слово «лиса», оно даст результат, который да, он появился в (Doc C) и так далее ... Теперь он будет читать Doc B, и он будет проверить, появилась ли собака в другом документе? Ответ был бы (Doc C) так далее ....
Любые советы или псевдокоды?
Подсказка: это также называется частотой обратного документа (Idf). Я знаю, что такое idf.
Это проблема домашней работы? Если это так, неплохо быть прозрачным, используя тег «домашняя работа» и позволяя читателям соответствующим образом корректировать свои ответы. –
Используйте объединение бит-множеств. Работает каждый раз. –