Я работаю над проблемой, где у меня есть набор данных (анализ), как это:R: машинное обучение на основе классификации текстов
Description Code
--------------- ----------
abc def ijk 100
def pqr 200
abc def rst 100
pqr mno 300
У меня есть этот набор данные из около 200 000 записей с 150 четкие коды. Мне нужно создать рекомендательную систему ML, которая на основе текста входящего описания подскажет, в каком кодовом коде оно должно идти, основываясь на предыдущих распределениях.
Я сделал часть работы в R, используя Text Mining (tm package), чтобы очистить текст, извлеченные слова-частоты (findFreqTerms) и word-ассоциации (findAssocs) и вычислил вероятности в SQL этих слов- ассоциаций, чтобы перейти к определенному коду, тем самым я вижу, что между word-ассоциацией существует шаблон, как вы можете видеть ниже.
SELECT description,
code,
cnt descdcnt,
sum(cnt) over (PARTITION BY description) desccnt,
cnt*100/sum(cnt) over (PARTITION BY description) perc
FROM
(
SELECT CASE
WHEN lower(description) LIKE '%abc%pqr%' THEN 'abc pqr'
WHEN lower(description) LIKE '%def%mno%' THEN 'def mno'
WHEN lower(description) LIKE '%xyz%ijk%' THEN 'xyz ijk'
................................................
ELSE 'other' END description, code, count(*) cnt
FROM analysis
GROUP BY CASE
WHEN lower(description) LIKE '%abc%pqr%' THEN 'abc pqr'
WHEN lower(description) LIKE '%def%mno%' THEN 'def mno'
WHEN lower(description) LIKE '%xyz%ijk%' THEN 'xyz ijk'
...........................................
ELSE 'other' END, code
)
ORDER BY perc DESC;
Description Code descdcnt desccnt perc
-------------------------------------------------------
abc pqr 100 988 1000 98.8
xyz mno 200 935 1000 93.5
def wqr 300 854 1000 85.4
Я хочу разработать ML, который может учиться на вышеуказанных моделях и предложить рекомендацию с вероятностью свыше 80%. Я попробовал Naive Bayes algo в R (поезд на 70%, тест на 30%), но точность довольно бедная, проверенная с помощью CrossTable.
Как подойти к этой проблеме с ML в R? Мне просто нужны указатели, отдых, в которые я могу копаться.
Добро пожаловать на SO. Это не вопрос программирования - вам лучше советоваться с [Cross Validated] (http://stats.stackexchange.com) – Tchotchke