2017-01-02 4 views
1

Мне очень жаль, если этот вопрос нарушает правила SO, но я застрял, и я не могу найти нигде больше, чтобы задавать такие вопросы. Предположим, у меня есть набор данных, содержащий три экспериментальных данных, которые были получены в трех разных условиях (горячая, холодная, удобная). Данные расположены в трех столбцах в pandas dataframe, состоящем из 4 столбцов (time, cold, comfortable and hot). Когда я рисую данные, я могу визуально увидеть разделение трех экспериментов, но я хотел бы сделать это автоматически с машинным обучением. Ось x представляет собой time, а ось y представляет данные magnitude. Я читал о различных машинных процессах classification techniques, но я не понимаю, как настроить мои данные, чтобы я мог «подать» его в алгоритм classification. А именно, у меня есть следующие вопросы:Настройка набора данных для классификации машин

  1. Возможно ли это с точки зрения программирования?
  2. Как настроить (упорядочить мои данные) так, чтобы его можно было легко ввести в алгоритм классификации? From what I read so far, для работы алгоритма данные должны быть в определенном порядке (см., Например, iris dataset, где данные красиво помечены. Как настроить алгоритмы в соответствии с моими потребностями? ПРИМЕЧАНИЕ: В идеале Я хотел бы программу, которая, учитывая значение величины, было бы классифицируют значение в качестве hot, comfortable or cold. Временной ряд не очень существенна в моем случае
+1

Что вы пытаетесь достичь, используя классификацию? если это ваши данные, есть ли у вас другие данные в качестве набора тестов для классификации? – Arman

+1

Почему сортировки недостаточно данных? Похоже, у вас есть проблема XY здесь http://meta.stackexchange.com/questions/66377/what-is-the-xy-problem – alex314159

+0

@Arman, это мои данные, но я хотел бы использовать данные для предсказать другие результаты эксперимента –

ответ

1

конечно, это возможно.

Не совсем ясно из исходного сообщения, какие переменные/функции у вас есть для вашей модели, но здесь немного общего руководства. Все эти проблемы машинного обучения, от классификации до регрессии, опираются на одно и то же основное предположение о том, что вы пытаетесь предсказать некоторый результат, основанный на совокупности входных данных. Обычно это соотношение моделируется следующим образом: y ~ X1 + X2 + X3 ..., где y - ваш результат («зависимая») переменная, а X1, X2 и т. Д. - это функции («пояснительные» переменные). Более просто, мы можем сказать, что, используя всю нашу матрицу свойств X (т. Е. Матрицу, содержащую все наши x-переменные), мы можем предсказать переменную конечного результата y с использованием различных методов ML.

Так что в вашем случае вы бы постарались предсказать, является ли это Cold, Comfortable, или Hot на основе time. Это скорее проблема прогноза, чем проблема ML, поскольку у вас есть компонент времени, который выглядит как одна из наиболее важных (если не единственных) функций в вашем наборе данных. Возможно, вам захочется взглянуть на некоторые более простые методы прогнозирования временных рядов (например, ARIMA), а не на алгоритмы ML, поскольку некоторые из подходов ML временного ряда могут быть не совсем подходящими для новичков.

В любом случае, это должно заставить вас начать, я думаю.

+0

Спасибо за ваш быстрый ответ. Разве ARIMA не используется для прогнозирования будущих значений, а не для классификации? В моем случае время не имеет большого значения. Мне только интересно узнать, принадлежит ли данная величина к горячему, холодному или удобному эксперименту. –

+1

Итак, вы можете a) использовать ARIMA для прогнозирования значения в заданное время 't', а затем применить любые правила, составляющие что-то' 'Hot',' Cold' или 'Comfortable' (например, более 80 - это« Hot ») к этому прогнозируемому значению или b) рассматривать его как проблему классификации и просто использовать «время» в качестве вашей функции. В ваших данных могут быть определенные компоненты временного ряда (например, сезонность), которые могут потребовать более тщательного изучения, если вы собираетесь на маршрут ML ... – blacksite

+0

Это, к сожалению, не получилось, поскольку мне нужно использовать классификационную модель для прогнозирования другие эксперименты, выходное значение которых зависит от субъектов (мышей в моем случае), которые используются. –

Смежные вопросы