Не совсем уверен, что это подходящее место или нет. Но вот мой вопрос. Так что для функций, которые являются числовыми по своей природе, вполне естественно представлять их, строить их и т. Д., Но как насчет слов?Машинное обучение: хороший способ представления функций слова
Как вы относитесь к данным, в которых у вас есть слова как функции? Так скажем, у меня есть набор данных, со следующими особенностями:
InventoryVal, Number of Units, Avg Price, Category of Event and so on..
- InventoryVal ряд
- Количество единиц является количество
- Средняя цена ряд
- Категория события является слово который назначается людьми.
Событие, если я заменю категорию (например) «книгами» на идентификатор ...... (скажем 1), но тогда это тоже то, что я назначил, и это не является чем-то неотъемлемым элементом данных.
Что такое хороший показатель для обозначения того, что изделие относится к категории «искусство», без искусственного присвоения чего-либо? Ehh .. слишком расплывчатый или слабо сформулированный вопрос?/
Просто обратная частота не обязательно является хорошим способом.Фильтрация списка «стоп-слов» (a, и, и т. Д.) - это другой подход. TF-IDF (http://en.wikipedia.org/wiki/Tf%E2%80%93idf) - еще одна популярная схема, которая делит частоту (слово) на число * документов * слово появляется в (idf = = обратная частота документа) – phs