У меня есть текстовый файл, который был выведен из java-программы, которая находит частоту имен людей, упомянутых в нескольких документах, и записывает их в файл (peopleNames.txt), как это:Искать текст, содержащийся в текстовом файле, и удалять их из другого текстового файла в java
article1location\article1 name1:countofname1# name2:countofname2# name3:countofname3# ...
article2location\article2 name1:countofname1# name2:countofname2# name3:countofname3# ...
article3location\article3 name1:countofname1# name2:countofname2# name3:countofname3# ...
имена соответствуют людей имен, определенных в каждой статье наряду с частотой их появления в статье, есть около 90 000 статей. У меня есть другой текстовый файл (titles.lst), который содержит список из примерно 40 разных названий и их сокращений (например, г-н, г-жа, президент, сэр и т. Д.). Я хотел бы использовать этот список в файле для поиска и удалите эти заголовки из peopleNames.txt. Я не уверен, как это сделать в java, поскольку я новичок в java, и мне нужно изменить исходный код в java, который создал peopleNames.txt для размещения удаления заголовка.
Моя программа идентифицирует человека, такого как г-н Джон Смит, который отличается от Джона Смита, поэтому удаление названий даст мне более точное количество имен, упомянутых в статьях.
Заранее благодарим за любую помощь.
Как вы, вероятно, знаете, если статья ссылается на кого-то по своему полному имени (возможно, с заголовком) в начале, это, вероятно, начнет ссылаться на них только по фамилии для остальных. В результате ваш список может быть немного больше, чем нужно. К сожалению, обработка, требующая более существенного переписывания. – KBKarma
Возможно, вы должны включить пример строки из titles.lst, так как это может помочь людям придумать лучшее решение. – KBKarma