У меня есть проблема в том, что мне нужен ввод/совет. Вот что у меня есть:Обучение машинам: нужна консультация по анализу данных
- У меня есть большой (полученный с помощью Informatin Retrieval) текстовый файл, состоящий из нескольких запросов.
- Для каждого запроса, набор документов возвращаются с их окончательной уместности как 0 или 1 для данного запроса
- Каждый документ возвращенного имеет множество значений характеристики возвращаются (как 0,123, 0.0456) и т.д.
например. данные
query1 relevance=0 document1 feature11 feature12 feature13 ...
query1 relevance=1 document2 feature21 feature22 feature23 ...
...
query2 relevance=0 document100 feature101 feature102 ...
query2 relevance=1 document101 feature201 feature202 ...
query2 relevance=0 document102 feature301 feature302 ...
...
Задача состоит в анализе этих данных и предоставлении некоторых графиков. Если какое-либо моделирование может быть сделано по этим данным, то еще лучше.
Вопрос:
- Какой вид анализа данных (просьба указать точные термины, как среднее, медиана, к-средств, линейной регрессии и т.д.) можно применить?
- Какие графики были бы полезны для показа в этом сценарии?
- Какое моделирование, если таковое имеется, может быть выполнено на этом.
Большое спасибо
Этот вопрос кажется не по теме, потому что речь идет о статистическом моделировании, а не о программировании. – joran
@joran Я бы с этим не согласился. StackOverflow конкретно говорит, что вопрос, заданный здесь, распространяется на инструменты, используемые программистами. Машиноведение и статистический анализ абсолютно подпадают под эту категорию, особенно когда она распространяется на попытку моделирования чего-то. Это может быть немного лучше подходит для math.stackexchange, но немного. –
@SlaterTyranus Это будет гораздо лучше подходит для crossvalidated.com, чем для math.stackexchange. Эмпирическое правило, которое сложилось с течением времени между CV и SO, состоит в том, что если Q включает проблемы с кодом_спецификатора, используемым для запуска/соответствия модели, тогда он принадлежит SO. Если речь идет о интерпретации модели, выборе подходящей модели или техники, то она принадлежит CV.Я основываю это на нескольких дискуссиях о том, что я участвовал в обоих сайтах Metas, а также в материалах различных модов. Если это эмпирическое правило изменилось, его новости мне. – joran