3

Может кто-нибудь сказать мне, как я могу классифицировать некоторые текстовые сообщения, используя нейронную сеть? Есть ли примеры? как я предварительно обрабатываю текстовые сообщения для обучения нейронной сети?Классификация текста с нейронной сетью

Благодаря

+0

вопрос слишком расплывчатый, проявите некоторое усилие и задайте конкретный вопрос. – Ankit

+1

Знаете ли вы [weka] (http://www.cs.waikato.ac.nz/ml/weka/)? –

ответ

4

Хотя ваш вопрос довольно расплывчатым, я дам ему идти, но это действительно зависит от того, что вы хотите сделать. Если вы просто пытаетесь извлечь функции и определить:

  • Ваш выбор особенность хорошо
  • Что машинного обучения алгоритм/структура для использования

Затем Weka удивительный вариант. Вот ссылка на набор руководств: https://www.youtube.com/watch?v=gd5HwYYOz2U

В принципе, вам нужно написать программу для извлечения тех функций, которые вы считаете релевантными, и каковы возможные «классы» ваших данных, а затем вывод файла .arff. По классу я имею в виду, что если вы пытаетесь решить, есть ли предложение о фруктах или овощах, тогда ваши два класса будут фруктами и овощами. В начале это может показаться сложным, но это действительно не так сложно. Как только вы создали файл .arff, вы можете подать это в Weka и запустить на нем множество разных классификаторов, чтобы выяснить, какая модель лучше всего подходит вашим данным. При необходимости вы можете запрограммировать эту модель для работы с вашими данными.

Weka также включает перекрестную проверку, которая по существу гарантирует, что качество ваших результатов будет превышать данные тестирования, которые вы подаете в программу. Если вы не знакомы с этой концепцией, очень легко переоценить вашу модель и получить хорошие результаты с определенным набором данных обучения, но при тестировании на другие данные получаются намного худшие результаты.

Weka .arff файл (для справки: Окончательные расчеты в трудовых negotitions в канадской промышленности):

@relation 'labor-neg-data' 
@attribute 'duration' real 
@attribute 'wage-increase-first-year' real 
@attribute 'wage-increase-second-year' real 
@attribute 'wage-increase-third-year' real 
@attribute 'cost-of-living-adjustment' {'none','tcf','tc'} 
@attribute 'working-hours' real 
@attribute 'pension' {'none','ret_allw','empl_contr'} 
@attribute 'standby-pay' real 
@attribute 'shift-differential' real 
@attribute 'education-allowance' {'yes','no'} 
@attribute 'statutory-holidays' real 
@attribute 'vacation' {'below_average','average','generous'} 
@attribute 'longterm-disability-assistance' {'yes','no'} 
@attribute 'contribution-to-dental-plan' {'none','half','full'} 
@attribute 'bereavement-assistance' {'yes','no'} 
@attribute 'contribution-to-health-plan' {'none','half','full'} 
@attribute 'class' {'bad','good'} 
@data 
1,5,?,?,?,40,?,?,2,?,11,'average',?,?,'yes',?,'good' 
2,4.5,5.8,?,?,35,'ret_allw',?,?,'yes',11,'below_average',?,'full',?,'full','good' 
?,?,?,?,?,38,'empl_contr',?,5,?,11,'generous','yes','half','yes','half','good' 
2,2,2,?,'none',40,'none',?,?,'no',11,'average','yes','none','yes','full','bad' 
1,2,?,?,'tc',40,'ret_allw',4,0,'no',11,'generous','no','none','no','none','bad' 
1,2.8,?,?,'none',38,'empl_contr',2,3,'no',9,'below_average','yes','half',?,'none','bad' 

Где? идентифицирует отсутствующую/неизвестную точку данных.

+0

Я бы добавил, что также важно решить, какую модель вы собираетесь использовать для извлечения конкретных функций. Простым первоначальным подходом может быть, например, [мешок слов] (http://en.wikipedia.org/wiki/Bag-of-words_model). – dratewka

+0

Спасибо, Стив. Поскольку я знаю, что я не могу напрямую вводить текстовые данные в нейронную сеть. Могу ли я использовать weka для предварительной обработки текстовых данных? –

+0

Насколько мне известно, weka может читать только в .arff и .csv. Если у вас есть данные в какой-либо другой форме, вам нужно вычислить векторы признаков для каждой базы данных и вывести их в один из дочерних типов файлов. Когда я вернусь домой, я приложу пример файла .arff (многие образцы также включаются при загрузке weka). –

Смежные вопросы