Хотя ваш вопрос довольно расплывчатым, я дам ему идти, но это действительно зависит от того, что вы хотите сделать. Если вы просто пытаетесь извлечь функции и определить:
- Ваш выбор особенность хорошо
- Что машинного обучения алгоритм/структура для использования
Затем Weka удивительный вариант. Вот ссылка на набор руководств: https://www.youtube.com/watch?v=gd5HwYYOz2U
В принципе, вам нужно написать программу для извлечения тех функций, которые вы считаете релевантными, и каковы возможные «классы» ваших данных, а затем вывод файла .arff. По классу я имею в виду, что если вы пытаетесь решить, есть ли предложение о фруктах или овощах, тогда ваши два класса будут фруктами и овощами. В начале это может показаться сложным, но это действительно не так сложно. Как только вы создали файл .arff, вы можете подать это в Weka и запустить на нем множество разных классификаторов, чтобы выяснить, какая модель лучше всего подходит вашим данным. При необходимости вы можете запрограммировать эту модель для работы с вашими данными.
Weka также включает перекрестную проверку, которая по существу гарантирует, что качество ваших результатов будет превышать данные тестирования, которые вы подаете в программу. Если вы не знакомы с этой концепцией, очень легко переоценить вашу модель и получить хорошие результаты с определенным набором данных обучения, но при тестировании на другие данные получаются намного худшие результаты.
Weka .arff файл (для справки: Окончательные расчеты в трудовых negotitions в канадской промышленности):
@relation 'labor-neg-data'
@attribute 'duration' real
@attribute 'wage-increase-first-year' real
@attribute 'wage-increase-second-year' real
@attribute 'wage-increase-third-year' real
@attribute 'cost-of-living-adjustment' {'none','tcf','tc'}
@attribute 'working-hours' real
@attribute 'pension' {'none','ret_allw','empl_contr'}
@attribute 'standby-pay' real
@attribute 'shift-differential' real
@attribute 'education-allowance' {'yes','no'}
@attribute 'statutory-holidays' real
@attribute 'vacation' {'below_average','average','generous'}
@attribute 'longterm-disability-assistance' {'yes','no'}
@attribute 'contribution-to-dental-plan' {'none','half','full'}
@attribute 'bereavement-assistance' {'yes','no'}
@attribute 'contribution-to-health-plan' {'none','half','full'}
@attribute 'class' {'bad','good'}
@data
1,5,?,?,?,40,?,?,2,?,11,'average',?,?,'yes',?,'good'
2,4.5,5.8,?,?,35,'ret_allw',?,?,'yes',11,'below_average',?,'full',?,'full','good'
?,?,?,?,?,38,'empl_contr',?,5,?,11,'generous','yes','half','yes','half','good'
2,2,2,?,'none',40,'none',?,?,'no',11,'average','yes','none','yes','full','bad'
1,2,?,?,'tc',40,'ret_allw',4,0,'no',11,'generous','no','none','no','none','bad'
1,2.8,?,?,'none',38,'empl_contr',2,3,'no',9,'below_average','yes','half',?,'none','bad'
Где? идентифицирует отсутствующую/неизвестную точку данных.
вопрос слишком расплывчатый, проявите некоторое усилие и задайте конкретный вопрос. – Ankit
Знаете ли вы [weka] (http://www.cs.waikato.ac.nz/ml/weka/)? –