У меня был аналогичный вопрос, какой язык лучше всего подходит для этой задачи, и Perl был ответом. Но мне все еще любопытно, как разрешить это с помощью C.Как написать этот код на C с Unicode?
Я хочу дать этой программе большой текстовый файл, заполненный образцами немецкого текста, взятых из романов, газет, веб-страниц. Я хочу список частот всех слов в текстовом файле, отсортированных по наиболее распространенному слову. Мне нужен список из 3000 наиболее распространенных немецких слов.
Если это была только проблема ASCII, то это была бы детская игра для меня. Прочитав о Юникоде все утро, я действительно удивляюсь, что это за минное поле.
Как это делается в C?
У меня был друг, который положил что-то вместе в Python, но он все еще новичок, и его код занял около 30 минут в текстовом файле 1,4 МБ.
Что такое кодировка символов большого текстового файла, составляющего ваш состав слов? UTF-8? UTF-16? Что-то другое? –
Я считаю, что это в основном * один лайнер * в Python, игнорируя импорт: 'print (Counter (re.findall (r '(? U) \ w +', open ('input.txt'). Read())) .most_common (3000)) '. Не самый быстрый путь, но это не займет 30 минут. – nneonneo
@AdamRosenfield Это UTF-8. –