(Это скорее гипотетический характер, как прямо сейчас, так что я не слишком много деталей, чтобы предложить.)Оптимизация количества слов
У меня есть плоский файл случайных (английских) слов, один на каждый линия. Мне нужно написать эффективную программу для подсчета количества вхождений каждого слова. Файл большой (возможно, около 1 ГБ), но у меня много памяти для всего. Они хранятся на постоянном носителе, поэтому скорость чтения медленная, поэтому мне нужно просто прочесть ее один раз линейно.
Мои две идеи о том, чтобы использовать хэш со словами => нет. вхождениях или trie с no. появления в конечном узле. У меня достаточно ОЗУ для хэш-массива, но я думаю, что trie будет иметь быстрый или быстрый поиск.
Какой подход был бы лучше?
KISS. В любом случае доступ к структуре данных должен быть * справедливым * прозрачным. – 2009-11-02 20:33:46