2016-07-08 1 views
-1

http://ats.cs.ut.ee/u/kt/hw/spam/spam.pdfMachine Learning методы в фильтрации спама Константин Третьяков

Прежде всего, я не уверен, если это даже хороший вопрос на переполнение стека, поскольку это не связано напрямую с кодом, я просто не мог придумать другое место, чтобы спросить об этом.

Я изучаю компьютерное обучение для отчета, который я должен сделать, и хотел написать что-то о фильтрации спама. Ссылка выше выглядит довольно хорошим и заслуживающим доверия источником, но я, вероятно, довольно тупой и просто не понимаю, что они говорят в части нейронных сетей (стр. 68 и далее). В той части, где они настраиваются w en b, они используют c и x для ее настройки. C равно 1 или -1, насколько я понимаю (может быть, здесь и здесь неправильно), но x - это подготовленные слова как «удаленные», такие слова, как «работает», связаны с «run'-mail» как вы можете использовать w-new = w-old + cx, но как вы умножаете нецелое число?

+1

Добро пожаловать в SO! Да, этот вопрос не соответствует теме. Это довольно широко, и мы не получаем то, о чем вы действительно спрашиваете. Пожалуйста, прочитайте о том, как задавать вопрос на SO [здесь] (stackoverflow.com/help/how-to-ask) и что находится в теме на сайте [здесь] (http://stackoverflow.com/help/on-topic) – eliasah

+0

Ввод нейронной сети, по их словам, является «особенным вектором», поэтому векторное представление слов, которые вы хотите проанализировать. Вы должны кодировать или представлять свои слова таким образом, который может использоваться нейронной сетью в качестве вектора входных признаков. –

ответ

0

Это векторное представление слова. существующих мл библиотек существуют инструменты, чтобы построить такие представления автоматически (например, this или that)

в целом идея тривиальна. Представьте, что вы знаете, что есть 1000 слов там в вашем документе корпус. не больше не меньше. Простейшее способ векторного представления слов состоит в том, чтобы просто построить разреженную матрицу размером 1000x1, где вы для каждого конкретного слова вы будет иметь все строки как 0 и одну из строк с 1 (что часто называют «одним горячим кодированием»)

Это уродливое представление, хотя обычно используется нечто более эффективное, например, представление TF-IDF - хотя это вариация одной и той же идеи.