1

У меня есть проблема в том, что мне нужен ввод/совет. Вот что у меня есть:Обучение машинам: нужна консультация по анализу данных

  1. У меня есть большой (полученный с помощью Informatin Retrieval) текстовый файл, состоящий из нескольких запросов.
  2. Для каждого запроса, набор документов возвращаются с их окончательной уместности как 0 или 1 для данного запроса
  3. Каждый документ возвращенного имеет множество значений характеристики возвращаются (как 0,123, 0.0456) и т.д.

например. данные

query1 relevance=0 document1 feature11 feature12 feature13 ... 
query1 relevance=1 document2 feature21 feature22 feature23 ... 
... 
query2 relevance=0 document100 feature101 feature102 ... 
query2 relevance=1 document101 feature201 feature202 ... 
query2 relevance=0 document102 feature301 feature302 ... 
... 

Задача состоит в анализе этих данных и предоставлении некоторых графиков. Если какое-либо моделирование может быть сделано по этим данным, то еще лучше.

Вопрос:

  1. Какой вид анализа данных (просьба указать точные термины, как среднее, медиана, к-средств, линейной регрессии и т.д.) можно применить?
  2. Какие графики были бы полезны для показа в этом сценарии?
  3. Какое моделирование, если таковое имеется, может быть выполнено на этом.

Большое спасибо

+2

Этот вопрос кажется не по теме, потому что речь идет о статистическом моделировании, а не о программировании. – joran

+0

@joran Я бы с этим не согласился. StackOverflow конкретно говорит, что вопрос, заданный здесь, распространяется на инструменты, используемые программистами. Машиноведение и статистический анализ абсолютно подпадают под эту категорию, особенно когда она распространяется на попытку моделирования чего-то. Это может быть немного лучше подходит для math.stackexchange, но немного. –

+0

@SlaterTyranus Это будет гораздо лучше подходит для crossvalidated.com, чем для math.stackexchange. Эмпирическое правило, которое сложилось с течением времени между CV и SO, состоит в том, что если Q включает проблемы с кодом_спецификатора, используемым для запуска/соответствия модели, тогда он принадлежит SO. Если речь идет о интерпретации модели, выборе подходящей модели или техники, то она принадлежит CV.Я основываю это на нескольких дискуссиях о том, что я участвовал в обоих сайтах Metas, а также в материалах различных модов. Если это эмпирическое правило изменилось, его новости мне. – joran

ответ

1

Можно выполнить любое количество типов анализа данных на этом множестве, так как это, кажется, очень общий набор. В общем, похоже, что вы, как правило, рассматриваете проблему binary classification, которая очень хорошо известна в процессе машинного обучения.

Поскольку различие между моделированием и анализом данных является неопределенным, если оно существует в этом случае, особенно без какого-либо физического смысла позади вашего вектор-функции, я собираюсь идти вперед и отвечать на них обоих сразу.

Во-первых, вам нужен показатель успеха. Если вы рассматриваете проблему бинарной классификации, я бы лично выбрал AUC (область под рабочей характеристической кривой приемника (ROC)), поскольку она отличает плохо распределенные данные и точный анализ данных (если набор данных имеет 90% 1, то алгоритм, который просто догадывается, что все 1 кажется лучше, чем это действительно для большинства случаев)

Когда дело доходит до выбора конкретного типа анализа, здесь можно использовать несколько различных полезных вещей. Мой первый совет - попробовать logistic regression, поскольку это относительно простая модель, которая может быть невероятно эффективной. Прошлое, что я заглянул бы в BayesNet, и после этого я посмотрю на классификаторы Ib1 и Ibk.

+0

Очень хорошо объяснил ответ! Благодарю. Последующие вопросы: 1. Я также думал о бинарной классификации и линейной регрессии. Я просто смущен, если классификация произойдет на уровне запросов или по всем запросам? то есть я беру запрос и его возвращенные документы, а затем применяю классификацию? Я считаю, что это единственный способ, поскольку в отдельных запросах не может быть ничего подобного. 2. Вектор функции очень большой (64 объекта на документ), поэтому считаете ли вы, что я использую SVM для решения этой проблемы? – sppc42

+0

Классификация в идеале должна происходить по всем запросам. Если это вообще возможно, вы должны попытаться сделать некоторые умные разработки ваших запросов. Если это невозможно по какой-либо причине, то вы можете ограничить его исключительно в запросах, но я чувствую, что редкость начинает причинять вам боль. 64 не очень большой, и я честно не вижу реальной причины использовать SVM здесь. Вы можете попробовать, если вас не устраивают результаты других подходов. Если вас беспокоят большие векторы признаков (как только вы попадаете в десятки тысяч), я бы использовал PCA для устранения некоторых функций. –

+0

Не оценивайте нисходящее движение от того, кто бы это ни было, оценят объяснение, поэтому я могу улучшить свой ответ. –

Смежные вопросы