2015-10-26 2 views
-6

Предположим, у нас есть текстовый файл 10000 и мы хотели бы классифицировать как политическое, здоровье, погоду, спорт, науку, образование, ......... Мне нужна подготовка набор данных для классификации текстовых документов и алгоритм классификации наивного Байеса. Любой может помочь получить наборы данных. OR Есть ли другой способ получить классификацию. Я новичок в Machine Learning. Пожалуйста, объясните свой ответ полностью.Подготовка и тестирование Набор данных для текстового файла классификации

Пример:

 **Sentence**           **Output** 

1) Обама выиграл выборы. -----------------------------------------------> политический

2) Индия выиграла 10 калиток ---------------------------------------- ------> спорт

3) Табак более опасен -------------------------------- -------------> Здоровье

4) ньютон законы движения может быть применен к машине --------------> наука

Любой способ классифицировать эти предложения в соответствующие категории

+1

Добро пожаловать в StackOverflow. Прочтите и следуйте инструкциям по отправке в справочной документации. [по теме] (http://stackoverflow.com/help/on-topic). – Prune

ответ

1

Вы пытались его перевести? Есть тонны и тонны наборов данных для категоризации текста. Классическим является Reuters-21578 (https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection), еще один известный и упомянутый почти в каждой книге ML - 20 групп новостей: http://web.ist.utl.pt/acardoso/datasets/

Но есть много других, одного запроса Google от вас. Просто загрузите их, слегка приспособите, если необходимо, и подготовьте свой классификатор к этим наборам данных.

+0

Я загрузил оба Reuters и 20 newsgroup. но моя проблема в том, что я не получаю, как использовать их в своей системе. Мой наивный классификатор заливов принимает вход как –

+0

Я загрузил как Reuters, так и 20 групп новостей. но моя проблема в том, что я не получаю, как использовать их в своей системе. Мой наивный классификатор заливов принимает входные данные как trainingFiles.put (Classifier_NAME, NaiveBayesExample.class.getResource (Filename_HERE)); –

+0

Хорошо - что случилось, когда вы использовали один из файлов, которые вы нашли для обучения модели? У вас уже есть имя файла; выберите нужный классификатор, укажите это и выполните вызов. – Prune

Смежные вопросы