Machine Learning Library Специализируется на документах

Я делаю проект, и мне нужно узнать библиотеку машинного обучения, написанную в java, предназначенную для классификации документов. Может кто-нибудь, пожалуйста, приведу несколько примеров?Machine Learning Library Специализируется на документах

источник

2014-09-12 Chamath Sajeewa

Вот две известные Java библиотеки

Stanford ядро NLP - http://nlp.stanford.edu/software/classifier.shtml

GATE - http://osdir.com/ml/ai.gate.general/2007-05/msg00003.html, https://gate.ac.uk/sale/tao/splitch19.html#chap:ml

источник

2014-09-12 10:09:06 user123

Я бы также добавил OpenNLP DocumentCategorizer. Многие используют его. – markg

Зависит от типа ML вы ищете.

Существует лингвистическая часть проблемы (анализ документов, извлечение сущностей и т. Д.), Которые могут значительно улучшить результат и часть алгоритмов ML. Для последнего взгляда, например, Apache Mahout - у него также есть примеры классификации документов, которые идут с ним. Особенно, если вы планируете иметь дело с большим количеством данных. Классификатор Стэнфорда также является хорошим выбором для начала.

источник

2014-09-12 14:00:45

Спасибо, Есть ли хорошие библиотеки для лингвистической части? –

Все зависит от языка и уровня анализа, который вам нужен. Для многих задач классификации достаточно простого токенизатора + стебля (Lucene делает это, или вы можете подделать себя и использовать Snowball stemmer). Для более продвинутого уровня анализа вы можете использовать уже упомянутый парсер Stanford или GATE или Apache OpenNLP. Для более тяжелого подхода может потребоваться весь конвейер, например UIMA или GATE. –

Оба механизма обучения каркасам MALLET (http://mallet.cs.umass.edu/classification.php) и Weka (http://www.cs.waikato.ac.nz/ml/weka/) могут выполнять классификацию документов. С ними легко начать работать, по сравнению с Mahout или Spark.

источник

2015-06-30 07:28:45 lejon

Machine Learning Library Специализируется на документах

ответ

Смежные вопросы