2012-05-01 5 views
0

Например, у меня есть набор данных для русских людей, как этотВходные данные libsvm?

userID 1 (or 2,3.....up to n) 
gender male (or female) 
working yes (or No) 
income >$5000/month (or <$5000) 
have_car yes (or no) 

Я хочу, чтобы предсказать, что человек имеет автомобиль или нет базы на другие свойства (гендерный, рабочий и доход). Какой формат я должен использовать для обучения, и сколько людей я должен пройти обучение, сколько для тестирования, если допустим, что у меня есть данные из 10 000 человек.

ответ

0

Формат: вы должны использовать числовые данные. Таким образом, использование может использовать 0 и 1 для двоичных делений.

Обучение/Тестирование: для этого нет точной формулы. Кажется, у вас не так много функций, которые вы используете для классификации - это означает, что вам не обязательно нужно огромное количество учебных данных. Вы можете разбить его на 50:50 для начала и проверить, получили ли вы разумные результаты.

Смежные вопросы