У меня есть корпус языка, который раньше не был аннотирован POS, то есть он не имеет существующего набора тегов. Помимо ручной маркировки текстового процессора, например блокнота, есть ли какой-либо автоматический подход, чтобы начать пометку нового немаркированного набора, подобного моему корпусу ?. Спасибо.Как построить новый набор тегов
ответ
Это зависит от того, насколько подробно должен быть тег-набор. 10-12 базовых POS (Noun, Adjective, ..., foreign, пунктуация) или более подробно (различающие формы глаголов, типы местоимений, пол, число, время, ...).
Первый является универсальным (см. the categories of the Multext-East tagset или универсальный набор тегов Google).
Последнее намного сложнее, у нас есть paper. Короче говоря, у нас есть шаблон для наборов тегов, затем мы его модифицируем (отбрасываем/добавляем категории и значения) в соответствии с конкретным языком.
Что касается аннотации: опять же, это зависит - если у вас есть небольшой набор тегов, вы можете вручную назначить тег каждому слову, например, в «Блокноте» или в каком-то простом графическом интерфейсе (мы используем this one, но, вероятно, есть лучшие). Если у вас есть набор тегов с сотнями или тысячами тегов, то вам, вероятно, нужна поддержка. Лучше всего использовать (возможно, порождающий) морфологический анализатор и графический интерфейс, позволяющий выбирать из опций, которые предлагает анализатор.
благодарит Ирку. могу ли я связаться с вами для более подробного обсуждения, так как похоже, что у вас есть опыт, который мне поможет. Ресурсы, которые вы рекомендовали, действительно открыли мне голову. – Iykeln
Да, используйте электронную почту на моей веб-странице (purl.org/jh) и напомните мне, если я не отвечу в течение недели или около того, я, вероятно, буду в понедельник. – Jirka
Brat имеет очень красивый графический интерфейс для ручной аннотации.
- 1. Угловой набор тегов как выбранный
- 2. Как построить набор с массивом
- 3. Набор тегов MPI
- 4. Как создать новый набор Redis?
- 5. новый объект {} Построить
- 6. Построить новый класс
- 7. Audio набор тегов CURRENTTIME сбой
- 8. Playframework - интернационализация внутри набор тегов
- 9. Как сгруппировать набор тегов в xsl?
- 10. Складной набор, чтобы сделать новый набор
- 11. Как построить крупнозернистый средний набор точек данных?
- 12. Как построить набор данных на разных графиках
- 13. Как построить вогнутый набор в R?
- 14. Как построить загруженный набор данных, используя блестящий?
- 15. Как построить набор вращающихся плотностей в ggplot2?
- 16. Как построить, возможно, непустой набор в Agda
- 17. новый ClassPathXmlApplicationContext(), создающий новый набор компонентов
- 18. Как заменить набор изображений на новый набор изображений
- 19. Как добавить новый модуль Samba VFS построить
- 20. Как построить новый драйвер X11 3D?
- 21. Как построить регулярное выражение ж/новый RegExp()
- 22. Как построить новый элемент HTML в jQuery?
- 23. Как итерация объекта и построить новый один
- 24. Как построить новый массив в подчеркиванием/lodash
- 25. Вывод на новый набор данных
- 26. как добавить новый набор в вектор C++
- 27. ChartJS, добавьте новый набор данных
- 28. Построить два якорь тегов для одного предложений
- 29. новый для анализа Набор данных
- 30. Subclassed UIView не получает набор тегов
На каком языке находится корпус? – mbatchkarov
Кроме того, вы используете термин «набор тегов» несколько нестандартным способом. Набор тегов - это все части речи ** ** **. Например, английский часто анализируется с использованием набора тегов Penn, что означает, что каждому слову в корпусе присваивается один из тегов в наборе тегов Penn. Поскольку лингвисты часто не согласны с тем, какие части речи имеют язык, вы можете иметь несколько наборов тегов на один язык. – mbatchkarov
Спасибо за исправление. , .tag set. – Iykeln