2011-12-16 2 views
1

Не совсем уверен, что это подходящее место или нет. Но вот мой вопрос. Так что для функций, которые являются числовыми по своей природе, вполне естественно представлять их, строить их и т. Д., Но как насчет слов?Машинное обучение: хороший способ представления функций слова

Как вы относитесь к данным, в которых у вас есть слова как функции? Так скажем, у меня есть набор данных, со следующими особенностями:

InventoryVal, Number of Units, Avg Price, Category of Event and so on.. 
  • InventoryVal ряд
  • Количество единиц является количество
  • Средняя цена ряд
  • Категория события является слово который назначается людьми.

Событие, если я заменю категорию (например) «книгами» на идентификатор ...... (скажем 1), но тогда это тоже то, что я назначил, и это не является чем-то неотъемлемым элементом данных.

Что такое хороший показатель для обозначения того, что изделие относится к категории «искусство», без искусственного присвоения чего-либо? Ehh .. слишком расплывчатый или слабо сформулированный вопрос?/

ответ

0

Так как вы, возможно, догадались, есть целые библиотеки ML, направленные на эту проблему, но если вы просто хотите начать работу, самым простым (и, возможно, самым распространенным) является слово частота. Другими словами, вы представляете каждое слово как функцию, значение которой является функцией количества раз, когда слова встречаются в каждом документе.

Но наиболее распространенные слова (a, и, это, и т. Д.) Являются наиболее часто встречающимися (в обычных текстовых документах (например, сообщениями электронной почты), но вряд ли являются самыми важными, так что это распространено выразить особенность слова как обратная из его частота

Итак, еще раз, это самая простая методология (мешка слов то, как это обычно называют);. более сложный анализ (который не всегда требуется) предварительно обработать отдельные слова, чтобы классифицировать их, например, части речи анализ.

Если вам нравится python, я рекомендую NLTK (набор инструментов Natural Language Tool) - это зрелая и хорошо документированная библиотека питона. Существует довольно много учебных пособий, которые начинаются с начинающих, но, возможно, начинаются с тех, которые создаются участниками NLTK и которые упоминаются на домашней странице NLTK; эти tutorials обычно полагаются на корпус (набор данных), включенный в базовую установку NLTK.

+2

Просто обратная частота не обязательно является хорошим способом.Фильтрация списка «стоп-слов» (a, и, и т. Д.) - это другой подход. TF-IDF (http://en.wikipedia.org/wiki/Tf%E2%80%93idf) - еще одна популярная схема, которая делит частоту (слово) на число * документов * слово появляется в (idf = = обратная частота документа) – phs

0

Если вы используете существующий пакет обучения в машине или алгоритм обучения в упакованном компьютере, может быть способ сказать ему, что определенное поле выполняется, например. целые числа, которые должны рассматриваться как идентификаторы, в которых только сравнения для равенства и неравенства имеют смысл. Если нет, если существует только небольшое количество различных категорий, имеет смысл заменить поле категории 10 значениями на 10 двоичных полей, удерживая 1, если объект находится в этой конкретной категории, или 0, если нет (или 9 полей , с объектом в 10-й категории, если все они равны 0).

Смежные вопросы