Я делаю извлечение ключевых слов с использованием TD-IDF на большом количестве документов. Currenly Я разделяю каждое предложение на основе n-грамма. В частности, я использую триграмма. Однако это не лучший способ разделить каждое предложение на ints, составляющее ключевые слова. Например, словосочетание типа «тройной сердечный шунт» не всегда может быть обнаружено как один термин.Каков наилучший способ разделить предложение на задачу извлечения ключевого слова?
Другая альтернатива, заключающаяся в том, чтобы каждое предложение в его составные элементы выглядело частью речевых меток и chunking в Open NLP. В этом подходе фраза типа «тройной обход сердца» всегда извлекается в целом, но недостаток находится в TF-IDF, частота извлеченных терминов (фраз) резко падает.
Есть ли у кого-нибудь предложения по любому из этих двух подходов или какие-либо другие идеи для повышения качества ключевых слов?