2015-10-14 2 views
0

Я работаю над задачей извлечения ключевого слова, в которой я хотел бы извлечь фразы вместо слов. Чтобы вырезать каждое предложение в значимые части, я сначала делаю часть речевых меток, и они на основе лингвистического правила извлекают только фразы существительных. Каждая существительная фраза является потенциальным ключевым словом, которое нужно извлечь. Однако, поскольку мне нужно только извлечь ключевые слова «k» для каждого данного документа, мне нужен хороший способ ранжировать извлеченные существительные фразы. Простым способом является вычисление оценки TDIDF для каждого термина (в пределах каждой именной фразы), а затем оценка каждой именной фразы будет умножением ее составляющих терминов «TDIDF score». Интересно узнать, есть ли у кого-то лучший подход или какая-либо идея по моему простому наивному решению?Как назначить оценку каждому куску в предложении?

+0

Это полностью обоснованный подход. Как только вы это сделаете, посмотрите, что ваш подход пропустил, и посмотрите, есть ли способ настроить систему для получения лучших результатов. Сделайте это, пока не закончите время и/или деньги. – Dan

ответ

0

Вы можете использовать разделитель предложений, например. один в open NLP вместо извлечения фраз на основе идентификации существительного, поскольку точность этого может быть низкой на практике (у вас может быть несколько существительных во фразе, а жестко закодированное лингвистическое правило, которое вы используете, может быть не устойчивым, т. е. работать для все возможные случаи). Извлечение фразы с использованием статистической модели, как и в openNLP, может быть лучше, потому что она имеет показатель доверия.

В любом случае, как только вы извлекаете фразы, вы можете извлекать ключевые слова, применяя типичный конвейер NLP и ранжируя ключевые слова, а затем используя tf-idf.

Я бы не рекомендовал умножение оценок tf-idf внутри фразы, потому что это не имело бы смысла. Но это может зависеть от вашего приложения. Вы хотите ранжировать фразы по этой цели? Вам нужно иметь счет, похожий на tf-idf, но на уровне предложения? Если вы хотите присвоить оценку всей фразе работе как с вектором терминов tf-idf, так и с уверенностью в извлечении предложений.
Или, если вы ищете сходство между фразами, вы можете сохранить векторы tf-idf каждого предложения и применить косинус или другое similarity technique.

Смежные вопросы