Учитывая одно слово, такое как «таблица», я хочу определить, что он наиболее часто используется, поскольку его наиболее распространенное использование - это существительное, глагол или прилагательное. Я хочу сделать это в python. Есть ли что-то еще помимо wordnet? Я не люблю wordnet. Или, если я использую wordnet, как бы я сделал это именно с этим?Идентифицировать слово как существительное, глагол или прилагательное
ответ
import nltk
text = 'This is a table. We should table this offer. The table is in the center.'
text = nltk.word_tokenize(text)
result = nltk.pos_tag(text)
result = [i for i in result if i[0].lower() == 'table']
print(result) # [('table', 'JJ'), ('table', 'VB'), ('table', 'NN')]
Что делать, если это слово вне контекста. Просто слово «таблица» и его наиболее распространенное использование, будь то его существительное, глагол и т. Д. –
Что вы подразумеваете под «вне контекста»? Именно контекст делает это определение (часть речи) возможным. – Vidul
Любое существительное может быть указано. – stark
Если у вас есть слово из контекста и хотите знать его наиболее общее пользование, вы можете взглянуть на чужой таблице частот (например, WordNet), или вы можете сделать свой собственный подсчет: Просто найти помеченные корпус, который достаточно велик для ваших целей и подсчет его экземпляров. Если вы хотите использовать бесплатный корпус, NLTK включает корпус Brown (1 миллион слов). NLTK также предоставляет методы для работы с более крупными, несвободными корпусами (например, British National Corpus).
import nltk
from nltk.corpus import brown
table = nltk.FreqDist(t for w, t in brown.tagged_words() if w.lower() == 'table')
print(table.most_common())
[('NN', 147), ('NN-TL', 50), ('VB', 1)]
- 1. Как получить существительное, глагол, прилагательное synset отдельно?
- 2. Преобразование слов в их существительное/прилагательное/глагол в Java
- 3. Создайте другие формы [существительное, прилагательное, множественное число, слово verb..everything]
- 4. найти существительное и глагол в Стэнфордском парсер
- 5. Возможно ли обнаружить часть речи (существительное, глагол, прилагательное ...) из службы поддержки текстовой аналитики Microsoft?
- 6. POS-тегирование - NLTK считает, что существительное - это глагол
- 7. Как получить прилагательное страны?
- 8. Идентифицировать HTTP-глагол на JAX-RS через Reflection
- 9. Проверка того, является ли конкретное слово существительным или глаголом
- 10. Эмбер-маршрутизация: возможно ли гнездо внутри маршрута «глагол», а не просто «существительное»?
- 11. Как преобразовать существительное Synet datatype в строку?
- 12. Оценить строку как глагол в J
- 13. Классифицировать существительное в абстрактном или конкретном, используя NLTK или аналогичный
- 14. ntlk: как получить перегибы слов
- 15. Существительное Синонимы в WordNet
- 16. Невозможно идентифицировать случайно удаленное слово из сетки
- 17. Как перечислить все формы слова, используя NLTK в python
- 18. SimpleNLG - Возможно ли, что SimpleNLG автоматически определяет, является ли существительное исключительным или множественным?
- 19. Как часть речи только один раз в PHP
- 20. Сингулярный или множественный глагол в имени функции?
- 21. Определить местоимение и его существительное?
- 22. Как я могу идентифицировать «токены» (неправильное слово) регулярного выражения
- 23. Как создать (или сгенерировать) теги для nltk lemmatizers
- 24. NLTK только поиск существительное synsets
- 25. Как извлечь существительное фразы из разобранного текста
- 26. Извлечение noun + noun или (adj | noun) + существительное из текста
- 27. NLTK определяет глагол как существительного в императивы
- 28. Как правильно идентифицировать идентификатор?
- 29. Что вы подразумеваете под инициализатором? Это процесс или это существительное?
- 30. Как найти наиболее часто встречающееся существительное, следующее за словом 'the'?
Вам нужна часть речи [пометки] (http://www.nltk.org/book/ch05.html). – Vidul
Wordnet имеет частоту для каждого * смысла * слова (например, «таблица»). Но это не обновлялось с 2003 года (насколько я помню). Лучший вариант - загрузить Google n-граммы и пометить POS в этом наборе данных. –
Как вы собираетесь использовать POS-тег для 5-словных ngrams? Эта идея не является стартером. Но google предоставляет [ngram files] (http://storage.googleapis.com/books/ngrams/books/datasetsv2.html), классифицированные по POS первого слова, так что это будет способ получить обширный счет. Если у вас есть дисковое пространство и вам действительно нужно перебросить столько данных. – alexis