2015-03-04 1 views
2

Я лингвист, пытающийся выяснить, как использовать NLTK и как пометить части речи в корпусах.Невозможно использовать NLTK pos_tag в Python v2 или v3

Я пытаюсь использовать функцию pos_tag и получить такое же сообщение об ошибке, как другой плакат: ASCii кодек не может декодировать байт ...

Смотрите эту ссылку: NLTK 3 POS_TAG throws UnicodeDecodeError

Я попробовал все из предлагаемые решения, в том числе тот, который дается оригинальным плакатом, но без успеха ни на одном из них.

Есть ли более возможные решения этой проблемы?

+0

Добро пожаловать в переполнение стека. «У меня такая же проблема, как и у этого парня, я попробовал решение, но это не сработало» не оставляет нам многого для продолжения. Попробуйте прочитать короткий текст (пара предложений) и вернуться сюда с текстом, кодировкой и сообщением об ошибке. – alexis

+0

PS. Если вы получаете ошибки в Unicode, вам будет намного лучше, если вы просто забудете о python 2. Python 3 намного лучше справляется с несколькими кодировками. – alexis

+0

PPS. Вопрос, на который вы ссылаетесь, устарел: Текущая версия NLTK (3.0.2) * * совместима с python 3, и вы должны использовать ее таким образом. – alexis

ответ

0

Похоже, вы получаете ошибку в unicode. Откуда твой корпус? Вероятно, у вас есть некоторые символы, похожие на «0xd1» или что-то подобное. Это довольно стандартная проблема, с которой приходится сталкиваться и часто может быть болезненной. По моему опыту, вы должны использовать регулярные выражения для удаления этих символов.

Какая ошибка? Если вы сообщите, что я могу помочь вам с регулярным выражением, чтобы удалить плохие жетоны.

Смежные вопросы