Пожалуйста, не блокируйте меня по этому вопросу, я попытался найти ответ в течение месяца, и я не могу его найти, и вы - моя последняя надежда (пожалуйста, если вы хотите сообщить об этом сначала ответьте мне, а затем сообщите, спасибо). Я пишу код классификации гибридного текста в MATLAB, и я сделал это правильно, но теперь я не знаю, как оценивать результаты. Я ничего не знаю о тренировочном наборе и экзамене, установленном в Reuters-21578, и я не могу их понять. мой код находит ключевые слова в тексте и с помощью гибридного алгоритма KNN помещает текст в его точный класс, но проблема в том, что я не знаю, что это за классы-кандидаты? Я должен сделать их или они готовы? Если каждый .sgm-файл в Reuters-21578 является классом, то как я могу использовать их в качестве класса-кандидата, я имею в виду, что они полны слов, поэтому я должен сначала классифицировать их и достичь выбора классов, которые могут быть классифицированы в других документах им?Оценка метода классификации текста с помощью набора данных Reuters-21578
ответ
Тег для каждой статьи/новостей можно рассматривать как метку класса. Вы можете разделить истории с темами на набор тренировок и набор тестов для оценки вашего классификатора. Есть истории в reuters-21578 без каких-либо тем, вы можете использовать свой классификатор для присвоения им меток классов.
Примечание: Есть много историй с несколькими темами.
Я прошел через то же самое. Если версия набора данных reuters не имеет для вас значения, то набор данных reuters также доступен в nltk.corpus, из которого вы можете легко получить доступ к тестовым документам, легко подготовить документы и их соответствующие категории. Вам не нужно беспокоиться об извлечении их из .sgm-файлов.
Вы можете сделать это:
from nltk.corpus import reuters
#This gives all files
documents = reuters.fileids()
#to get only the training and testing documents
train_docs = filter(lambda doc: doc.startswith("train"),documents);
test_docs = filter(lambda doc: doc.startswith("test"),documents);
#To get the raw data of a document
data = reuters.raw(documents[0])
#to get the categories/class in your case
category = reuters.categories(documents[0])
Теперь вы можете использовать их для обучения и тестирования. В простой оболочке ореха test_docs и train_docs содержат документы с сырым контентом и их соответствующей категорией, которые могут быть получены указанными выше методами.
- 1. Установка учебного набора данных для классификации текста в Java
- 2. классификации набора данных в Java
- 3. Генератор искусственного набора данных для данных классификации
- 4. Оценка значимости для задачи классификации
- 5. Оценка текста в таблице данных
- 6. Настройка набора данных для классификации машин
- 7. Оценка параметров в многомерной классификации
- 8. Использование моего собственного набора данных для классификации
- 9. Как увеличить представление классификации текста с помощью RBM?
- 10. Оценка круга от набора данных 2D
- 11. Scikitlearn - оценка набора данных после перекрестной проверки
- 12. Эффективность классификации текста
- 13. Использование Keras для классификации текста
- 14. Структура данных для классификации текста Задача
- 15. Оценка данных с помощью матриц
- 16. Маркировка данных кодирования для классификации текста
- 17. Оценка бинарной классификации Encog для ROC
- 18. Оценка выражений набора
- 19. Алгоритм для классификации текста
- 20. Prediction.io Ошибка классификации текста
- 21. Форматирование данных из набора результатов с помощью метода toString()
- 22. Как рассчитать вероятность (доверительность) классификации SVM для небольшого набора данных?
- 23. Ошибка предварительного предсказания с шаблоном классификации текста
- 24. Ошибка Tensorflow с использованием моих собственных данных для классификации текста
- 25. Как использовать ярлыки для классификации текста с помощью scikit-learn?
- 26. Представление SVM-функции с использованием готового словаря для классификации текста
- 27. Алгоритм классификации текста наивного байеса Наивный Байес
- 28. ошибок черчения результатов классификации SVM для спама набора данных
- 29. Создание набора данных речи для двоичной классификации LSTM
- 30. Результаты зависят от размера набора данных в классификации