Я хотел бы знать о инструментах с открытым исходным кодом (для java/python), которые могли бы помочь мне извлечь семантические & стилистические функции из текста. Примерами семантических признаков будет отношение прилагательное-существительное, конкретная последовательность тегов части речи (прилагательное, за которым следует существительное: adj | nn) и т. Д. Примерами стилистических признаков могут быть количество уникальных слов, количество местоимений и т. Д. В настоящее время я знаю только Word to Web Tools, который преобразует блок текста в рудиментальную модель векторного пространства.Извлечение семантических/стилистических функций из текста
Я знаю несколько текстовых горнорудных пакетов, таких как GATE, NLTK, Rapid Miner, Mallet и MinorThird. Однако я не мог найти какой-либо механизм, который бы соответствовал моей задаче.
С уважением,
--Denzil
Amac, Спасибо за ответ! «Модель векторного пространства», хотя и очень надежная модель, является примитивной моделью и в большей степени зависит от статистики. Я хотел бы реализовать более сложную модель, используя семантические знания из текстовых понятий и т. Д. Сообщение в блоге может помочь мне извлечь последовательность POS-шаблонов с использованием Lucene, но более легкий пакет, такой как NLTK (с регулярным выражением, конечно), может мне помочь выполнить ту же задачу. Спасибо, что указали мне на пакет семантических векторов. Хотя это не помогает мне в моей задаче, я буду рассматривать ее для некоторых других задач. – Dexter