2014-12-22 4 views
8

Я использую модуль nltk в python, и я пытаюсь использовать его для POS-маркировки на разных языках.NLTK другой язык POS tagger

Существует много информации о том, как обучить ваш собственный теггер POS на разных языках - есть ли база данных действительно надежных хорошо построенных и протестированных тегов NLTK POS для разных языков? (Это довольно легко экспортировать POS Taggers с помощью модуля рассол)

+0

Возможный дубликат [NLTK Пометка испанских слов с помощью корпуса] (http://stackoverflow.com/questions/14732465/nltk-tagging-spanish-words-using-a-corpus) – alvas

ответ

4

Вы можете найти надежные и хорошо построены и испытаны NLTK Corpora на http://www.nltk.org/nltk_data/

Вы можете найти другие corporas, но это лучший

1

Из того, что я знаю, нет такой базы данных надежных и хорошо протестированных тегов POS. Я действительно думаю, что это хорошая идея.

Я сам попробовал пару тегов. Для большого английского корпуса я использовал: http://gmb.let.rug.nl/

Для испанскога я использовал один включенный в NLTK (cess_esp)

from nltk.corpus import cess_esp as cess 

Для быстрого обучения простого Taggers вы можете проверить тренер NLTK:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html

3

Если это не так строго к использованию только NLTK, вы можете попробовать наш надежный и независимый от языка POS мечения инструментария RDRPOSTagger.

(Лицензия: GPLv2; Язык программирования: Python & Java)

RDRPOSTagger получает высокую производительность как в обучении и процесс мечения. Кроме того, RDRPOSTagger достигает очень конкурентоспособной точности по сравнению с самыми современными результатами.

Обновлено 18/11/2015: версия 1.2 с улучшенной точностью маркировки, особенно на морфологически богатых языках. См. Экспериментальные результаты, включая скорость работы и точность маркировки в this paper.

RDRPOSTagger поддерживает предварительно подготовленные модели POS и морфологических меток для болгарского, чешского, голландского, английского, французского, немецкого, хинди, итальянского, португальского, испанского, шведского, тайского и вьетнамского языков. RDRPOSTagger также поддерживает предустановленные модели универсальной маркировки POS для 40 языков.

+0

Если кому-то это понадобится, Я сделал [портирование на Python 3] (https://github.com/jacopofar/RDRPOSTagger-python-3) – Jacopofar

Смежные вопросы