Есть ли класс в libsvm, который может автоматически кодировать строковые/категориальные функции. Я нашел что-то под названием libsvmstringoutcomedatawriter. Какой тип кодирования используется выше? Одна горячая кодировка?кодирование категориальных переменных в libsvm
ответ
Как ваши функции должны быть закодированы для LibSVM, зависит от ядра, которое вы используете с SVM. Например, существуют ядра строк, которые позволяют напрямую использовать строки как функции с SVM. LibSVM FAQ обсуждает реализацию строкового ядра, которое может использоваться с LibSVM. Я также нашел string kernel implementation in Python, хотя и не проверял его.
Что касается категориальных функций, то они могут использоваться со стандартными ядрами, доступными в LibSVM. Типичным способом кодирования категориальных функций является преобразование их в двоичные функции, где каждое категориальное значение представляется как значение 1
определенной функции. Например, для функции color={red, green, blue}
мы можем иметь 3 функции red={0,1}
, green={0,1}
, blue={0,1}
. Затем ядра, такие как Gaussian/RBF, должны иметь возможность обрабатывать данные без проблем.
Но нужно ли мне делать эту кодировку вручную? И я пытаюсь кодировать функции, которые являются тегами POS. Любые подробности о них? –
- 1. Кодирование категориальных данных Spark
- 2. Кодирование большого количества категориальных переменных в качестве входных данных
- 3. Многоколлинеарность категориальных переменных
- 4. Перекодирование категориальных переменных/факторов
- 5. Удаление категориальных переменных facet_grid
- 6. Обработка категориальных переменных в StreamingLogisticRegressionwithSGD
- 7. Сортировка категориальных переменных в ggplot
- 8. Преобразование категориальных переменных в числа
- 9. Вектор категориальных переменных в матрицу
- 10. Подмножество категориальных переменных в R
- 11. Однократное (фиктивное) кодирование категориальных данных в Excel
- 12. Создание категориальных переменных из взаимоисключающих фиктивных переменных
- 13. Определенные уровни категориальных переменных несущественны
- 14. Агрегация категориальных переменных w/Dimple.js
- 15. участок категориальных переменных с R
- 16. GroupBy с комбинациями категориальных переменных
- 17. Панды уменьшить количество категориальных переменных
- 18. Двухсторонний график рассеяния категориальных переменных
- 19. Ddply и резюме категориальных переменных
- 20. Иерархическое моделирование категориальных переменных взаимодействий в PyMC3
- 21. превратить список категориальных переменных в (0,1) список
- 22. Показать% вместо отсчетов в диаграммах категориальных переменных
- 23. Получить отображение категориальных переменных в панд
- 24. корреляционная матрица связки категориальных переменных в R
- 25. Определить значение в зависимости от категориальных переменных
- 26. Найти уровни всех категориальных переменных в dataframe
- 27. Обработка категориальных/двоичных переменных в lm
- 28. Как построить несколько категориальных переменных в R
- 29. Перекодирование 150 + категориальных переменных в R
- 30. Создание двоичных переменных в R из категориальных и NA переменных
У Cleartk libsvm есть класс ibsvmstringoutcomedatawriter .. –