2010-06-24 6 views
1

Привет, я хотел знать, что можно использовать деревья принятия решений для классификации документов, и если да, то каким должно быть представление данных? Я знаю использование пакета R party для деревьев принятия решений.Деревья принятия решений для классификации документов

ответ

2

Один из способов - иметь огромную матрицу, где каждая строка является документом, а каждый столбец является словом. И значения в ячейках - это количество раз, которое это слово показывало в этом документе.

Затем, если вы имеете дело с случаем «контролируемого обучения», у вас должен быть другой столбец для классификатора, а оттуда вы можете использовать команду типа «rpart» (из пакета rpart), чтобы создать свою классификацию дерево. Команда будет вводить формулу для rpart, подобно тому, как это было бы с линейной моделью (lm).

Если вы хотите, вы также можете попытаться сначала сгруппировать свои слова в «группы слов», а затем каждый столбец, принадлежащий к другой группе слов, с указанием количества слов, сколько слов в документе принадлежало этому группа. Для этого я бы посмотрел на пакет «tm». (Если вы в конечном итоге что-то делать с этим, пожалуйста, рассмотрите возможно размещение здесь об этом, чтобы мы могли извлечь из него)

Лучший, Tal

+0

Hi Tal, Спасибо за указатели, на самом деле я вычислил матрицу документов Word и матрицу ассоциаций наиболее часто встречающихся слов. Нужно все еще вычислять деревья rpart, но я направляюсь в направлении, которое вы указали. Также функции в пакете tm оказали большую помощь. Я отправлю код здесь, как только получаю некоторые результаты. - Neo –

+0

Мое удовольствие Neo :) –

+1

Есть одна проблема с деревьями решений - они подвержены переобучению. Я предлагаю вам попробовать случайный метод леса (av. В пакете randomForest), который свободен от этого недостатка. – mbq

0

Я сомневаюсь, что это - по крайней мере, как обычно определено, дерево решений использует один критерий для указания подвеста. При классификации документов вы редко можете основывать что-либо по одному критерию - вам нужно несколько критериев, и даже тогда вы не получите четкого древовидного решения, но «это немного ближе к этому, чем другое - «результат».

+0

Я думаю, что OP больше относится к деревьям классификации, чем деревья решений. Некоторая двусмысленность в терминологии здесь. –

+0

... как указано вторым абзацем на этой странице в Википедии: http://en.wikipedia.org/wiki/Decision_tree_learning –

+0

Да, я согласен с Мэттом, есть небольшая двусмысленность с моей стороны, извините за это, я имею в виду классифицировать документы используя деревья решений. –

2

В статье дается обзор различных методов категоризации текста и их точностей , Короче говоря, вы можете классифицировать текст с деревьями решений, но есть и другие алгоритмы, которые намного лучше.

Sebastiani, F. (2002). Машиноведение в автоматизированной текстовой категоризации. ACM Computing Обзоры, cs.IR/0110053v1. Доступно с: http://arxiv.org/abs/cs.IR/0110053v1.