мой код базируется на коде по адресу: https://rstudio-pubs-static.s3.amazonaws.com/79360_850b2a69980c4488b1db95987a24867a.htmlAllocation Python Скрытого Дирихле Stopped_tokens Ошибки
Я могу запустить мою программу с меньшим количеством файлов, однако, когда я начинаю в большее количество файлов около 1000, то я получить эту ошибку:
ReadWrite.py:59: UnicodeWarning: Unicode равно сравнение не удалось преобразовать оба аргумента в Unicode - интерпретировать их как неравные stopped_tokens = [I для I в жетонах, если не я в en_stop]
Мне было интересно, если кто-то столкнулся с этим раньше или если есть идея, как исправить эту ошибку.
Я принял ваш совет, и я проверяю, чтобы у меня были файлы utf-8. Однако, когда я запускаю изменения кода, вы предложили изменить мою ошибку в UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xe2 в позиции 2: порядковый номер не в диапазоне (128). Это потому, что я сделал файлы в utf-8? –