2012-06-16 2 views
2

Я пытаюсь прочитать о НЛП в целом и nltk, специально для использования с python. Я точно не знаю, есть ли там что-то там, или, возможно, мне нужно его развить.Угадайте теги абзаца программным путем с помощью python

У меня есть программа, которая собирает текст из разных файлов, текст чрезвычайно случайный и говорит о разных вещах. Каждый файл содержит абзац или 3 максимум, моя программа открывает файлы и сохраняет их в таблице.

Вопрос в том, могу ли я догадываться о тегах, о которых идет речь? если кто-нибудь знает о существующих технологиях или подходах, я был бы очень признателен.

Спасибо,

+1

Поскольку теги имеют тенденцию быть существительными, если вы можете найти все существительные в абзаце и подсчитать их, что может быть наивным решением. Проблема в том, что в двух параграфах речь идет о львах и тиграх, которые вы, вероятно, захотите на этикетке «кошек». Если это то, что вы ищете, вам нужно будет использовать словарь ассоциаций и перекрестно проверить их. –

ответ

1

Ваша задача называется «классификация документов», а у nltk book есть целая глава. Я бы начал с этого.

Все зависит от ваших критериев назначения тегов. Вы заинтересованы в сопоставлении ваших документов с ранее существующим набором тегов или, возможно, в извлечении тем (выберите N самых важных слов или фраз в тексте)?

0

Вы должны обучить классификатор, самый простой в разработке (и вы на самом деле не нужно развивать его как NLTK обеспечивает один) является наивным baesian. Проблема в том, что вам нужно будет вручную классифицировать корпус наблюдений, а затем угадать, какой тег лучше всего подходит для данного абзаца (само собой разумеется, что чем больше учебный корпус, тем точнее будет ваш классификатор, ИМХО вы можете достичь 80-85% от правильности). Взгляните на docs.

Смежные вопросы