2016-06-07 1 views
-1

У меня есть текстовый файл на хинди, содержащий около 30000 слов. Я должен извлечь уникальное слово из файла и сохранить его в виде таблицы. Я пытаюсь это в java. Но я не знаю, как это сделать. Может ли кто-нибудь помочь?java-код для извлечения и хранения уникальных слов в введенном текстовом файле на языке хинди

+0

Есть ли конкретная причина, что эти 30'000 слов не находятся в базе данных? Как вы определяете уникальное слово, которое вам нужно найти? С регулярным выражением? – Gildraths

+0

уникальные слова в том смысле, что повторяющиеся не включены. требуется только одно появление слова для сохранения и сохранения в таблице. Причина в том, что я должен различать слово-стоп, слова корня и слова с измененными словами из файла. –

+0

Итак, в основном из 30'000 слов есть, например, 15'000 слов (без двойных записей), которые вы хотите сохранить в табличной форме, правильно? Как насчет этой табличной формы, отображается ли она в gui или сохраняется на листе excel или что за мыслью стоит за ней? – Gildraths

ответ

0

Я бы предложил использовать набор http://docs.oracle.com/javase/6/docs/api/java/util/Set.html для хранения ваших строк.

Преимущество в том, что оно не позволяет использовать значение более одного раза. Вот пример:

Set<String> storage = new HashSet<String>; //use TreeSet<String> if you need to sort the values 
storage.add("dog"); 
storage.add("cat"); 
storage.add("cat"); 

for(String name: set) { 
    System.out.println(name); //Values are: dog, cat 
} 

Вы можете прочитать файл, как это: Reading a plain text file in Java.

В принципе вы можете сохранить его как открытый текст с «,» между и сохранить файл как csv. Тогда вы можете легко импортировать его в excel