2016-03-24 5 views
0

Я новичок в НЛП, и мне нужно решить упражнение для моего класса НЛП. В принципе, я получаю исходный текст, содержащий аббревиатуры типа (CRF, ABC и т. Д.), А также другие типы заглавных слов (FOOD, HOUSE), и я должен их классифицировать.Различать аббревиатуру и просто заглавные слова?

Я не знаю с чего начать, можете ли вы указать мне на некоторые алгоритмы? Стохастические подходы, которые могут помочь мне решить проблему?

ответ

0

Используйте словарь «регулярных» английских слов (написание орфографии на Linux, WordNet и т. Д.) И проверьте, существует ли там слово. Во-вторых, используйте тегатор части речи. Если слово не является существительным, оно вряд ли будет акронимом. Наконец, проверьте существующее программное обеспечение, например. Сокращенного Finder и документов (в Google Scholar, поиск «аббревиатура»).

0

Согласен с fnl. Используя часть речи, которая содержит общие английские слова и тренирует ваш текстовый набор данных. Он автоматически отметит «Нет», «Глагол» и «Аббревиатура». Есть много видов pos, и было бы лучше, если бы вы могли выбрать тот, который имеет более близкую область к вашим текстовым данным. Например, http://www.cs.cmu.edu/~ark/TweetNLP/ предоставляет pos для твитов.

+0

Я согласен с тем, что идея использования позиционного маркера помогла бы, если бы у меня были только сокращения и существительные, алфавит (гепатит А, В или С). Достаточно ли было бы пометки для различения этих случаев? –

Смежные вопросы