Я работаю над задачей извлечения ключевого слова, в которой я хотел бы извлечь фразы вместо слов. Чтобы вырезать каждое предложение в значимые части, я сначала делаю часть речевых меток, и они на основе лингвистического правила извлекают только фразы существительных. Каждая существительная фраза является потенциальным ключевым словом, которое нужно извлечь. Однако, поскольку мне нужно только извлечь ключевые слова «k» для каждого данного документа, мне нужен хороший способ ранжировать извлеченные существительные фразы. Простым способом является вычисление оценки TDIDF для каждого термина (в пределах каждой именной фразы), а затем оценка каждой именной фразы будет умножением ее составляющих терминов «TDIDF score». Интересно узнать, есть ли у кого-то лучший подход или какая-либо идея по моему простому наивному решению?Как назначить оценку каждому куску в предложении?
ответ
Вы можете использовать разделитель предложений, например. один в open NLP вместо извлечения фраз на основе идентификации существительного, поскольку точность этого может быть низкой на практике (у вас может быть несколько существительных во фразе, а жестко закодированное лингвистическое правило, которое вы используете, может быть не устойчивым, т. е. работать для все возможные случаи). Извлечение фразы с использованием статистической модели, как и в openNLP, может быть лучше, потому что она имеет показатель доверия.
В любом случае, как только вы извлекаете фразы, вы можете извлекать ключевые слова, применяя типичный конвейер NLP и ранжируя ключевые слова, а затем используя tf-idf.
Я бы не рекомендовал умножение оценок tf-idf внутри фразы, потому что это не имело бы смысла. Но это может зависеть от вашего приложения. Вы хотите ранжировать фразы по этой цели? Вам нужно иметь счет, похожий на tf-idf, но на уровне предложения? Если вы хотите присвоить оценку всей фразе работе как с вектором терминов tf-idf, так и с уверенностью в извлечении предложений.
Или, если вы ищете сходство между фразами, вы можете сохранить векторы tf-idf каждого предложения и применить косинус или другое similarity technique.
- 1. Python 3- Назначить оценку
- 2. Как назначить номер каждому пользователю?
- 3. Назначить функцию каждому переключателю
- 4. Как назначить значение каждому слову в списке
- 5. Назначить каждому элементу списка переменную
- 6. ngtagsinput angularjs Как назначить идентификатор каждому тегу
- 7. Как назначить каждому другому клиенту другой ID
- 8. Scala Подъем к куску
- 9. Как назначить оценку экземпляра spot в сценарии CloudFormation
- 10. В PostGIS, как назначить TIMESTAMPs каждому POINT в LINESTRING?
- 11. Назначить один экземпляр докера каждому клиенту
- 12. Назначить оценку по процентному диапазону в функции в R
- 13. Как назначить веса для строк в предложении WHERE?
- 14. R: Как назначить встречный счетчик каждому уникальному значению в векторе?
- 15. Как назначить определенные роли каждому пользователю в рельсах?
- 16. Как назначить другой IP-адрес каждому виртуальному клиенту в WCAT
- 17. Как назначить каждому сообщению уникальный идентификатор в Wordpress?
- 18. Получите от SQLite DB электронную почту и оценку пользователя и отправьте оценку каждому пользователю, соответственно
- 19. Присвоение каждому слову в строке оценка, приписываемая этой строке
- 20. Android: Как назначить каждому элементу списка ListView отдельный значок?
- 21. Как назначить новое окно терминала каждому дочернему процессу
- 22. Назначить указатель в массиве символов каждому слову в строке C
- 23. Назначить и использовать пользовательские переменные mysql в предложении select
- 24. Назначить цвет каждому значению в Javascript, используя HighCharts
- 25. Назначить номер каждому сообщению в пользовательском типе сообщений?
- 26. отладить код javascript для вычисления среднего, затем назначить буквенную оценку
- 27. Как отключить оценку static_asserts в PC-Lint
- 28. Доступ к куску 3D-массива numpy
- 29. Как сделать оценку арифметических выражений в прологе?
- 30. Как преобразовать необработанную оценку в стандартизованную оценку «разумно»?
Это полностью обоснованный подход. Как только вы это сделаете, посмотрите, что ваш подход пропустил, и посмотрите, есть ли способ настроить систему для получения лучших результатов. Сделайте это, пока не закончите время и/или деньги. – Dan