Я делаю проект, и мне нужно узнать библиотеку машинного обучения, написанную в java, предназначенную для классификации документов. Может кто-нибудь, пожалуйста, приведу несколько примеров?Machine Learning Library Специализируется на документах
ответ
Вот две известные Java библиотеки
Stanford ядро NLP - http://nlp.stanford.edu/software/classifier.shtml
GATE - http://osdir.com/ml/ai.gate.general/2007-05/msg00003.html, https://gate.ac.uk/sale/tao/splitch19.html#chap:ml
Зависит от типа ML вы ищете.
Существует лингвистическая часть проблемы (анализ документов, извлечение сущностей и т. Д.), Которые могут значительно улучшить результат и часть алгоритмов ML. Для последнего взгляда, например, Apache Mahout - у него также есть примеры классификации документов, которые идут с ним. Особенно, если вы планируете иметь дело с большим количеством данных. Классификатор Стэнфорда также является хорошим выбором для начала.
Спасибо, Есть ли хорошие библиотеки для лингвистической части? –
Все зависит от языка и уровня анализа, который вам нужен. Для многих задач классификации достаточно простого токенизатора + стебля (Lucene делает это, или вы можете подделать себя и использовать Snowball stemmer). Для более продвинутого уровня анализа вы можете использовать уже упомянутый парсер Stanford или GATE или Apache OpenNLP. Для более тяжелого подхода может потребоваться весь конвейер, например UIMA или GATE. –
Оба механизма обучения каркасам MALLET (http://mallet.cs.umass.edu/classification.php) и Weka (http://www.cs.waikato.ac.nz/ml/weka/) могут выполнять классификацию документов. С ними легко начать работать, по сравнению с Mahout или Spark.
- 1. Пакеты R Azure Machine Learning
- 2. Basic machine learning
- 3. Azure Machine Learning - CORS
- 4. Python - Regex «Machine Learning»
- 5. Perl Machine Learning
- 6. Automating Azure Machine Learning
- 7. Machine Learning udacity
- 8. Matlab - Machine Learning?
- 9. Azure Machine Learning - python
- 10. Scala machine learning toolbox
- 11. Python Machine Learning Warning
- 12. Asp.net Azure machine learning
- 13. Machine Learning - алгоритм классификации
- 14. Machine Learning - начало работы
- 15. AWS Machine Learning issue
- 16. Null Classes in Machine Learning
- 17. Machine Learning Text Классификация техники
- 18. Azure Machine Learning - выход на веб-вход
- 19. iOS Amazon Machine Learning Swift
- 20. Machine Learning обнаружение случайной строки
- 21. Weka Machine Learning Package - SVM
- 22. Azure Machine Learning - Сериализация ошибка
- 23. AWS Machine Learning - Django шаблон
- 24. Azure Machine Learning Data Transformation
- 25. Azure machine learning repeat string
- 26. C++ Reinforcement Learning Library
- 27. пример Caffe Deep Learning Library
- 28. Начало работы с Azure Machine Learning
- 29. Machine Learning in C# для прогнозов
- 30. Azure Machine Learning Прогнозирование - входов и выходов
Я бы также добавил OpenNLP DocumentCategorizer. Многие используют его. – markg