2014-09-12 1 views

ответ

1

Зависит от типа ML вы ищете.

Существует лингвистическая часть проблемы (анализ документов, извлечение сущностей и т. Д.), Которые могут значительно улучшить результат и часть алгоритмов ML. Для последнего взгляда, например, Apache Mahout - у него также есть примеры классификации документов, которые идут с ним. Особенно, если вы планируете иметь дело с большим количеством данных. Классификатор Стэнфорда также является хорошим выбором для начала.

+0

Спасибо, Есть ли хорошие библиотеки для лингвистической части? –

+0

Все зависит от языка и уровня анализа, который вам нужен. Для многих задач классификации достаточно простого токенизатора + стебля (Lucene делает это, или вы можете подделать себя и использовать Snowball stemmer). Для более продвинутого уровня анализа вы можете использовать уже упомянутый парсер Stanford или GATE или Apache OpenNLP. Для более тяжелого подхода может потребоваться весь конвейер, например UIMA или GATE. –