2016-10-29 1 views
0

ПредварительныйВычислить наиболее общее время суток из таблицы значений

Этот вопрос относится к любой системе электронных таблиц. Я хотел бы помочь в разрешении проблемы, а не в ответе на проблему. (Хотя последний был бы наиболее полезен.)

Я понимаю, что переполнение стека подходит для конкретных проблем программирования, и я понимаю, что может потребоваться несколько попыток, чтобы мой вопрос был правильным, поэтому, пожалуйста, помогите мне уточнить мой вопрос, предоставив предложения, и я обновлю его.

Как и многие новички данных, у меня есть хороший опыт с конфиденциальными данными (например, сколько запросов в прошлом месяце), но я изо всех сил пытаюсь понять, как бороться с непрерывными данными (например, как обнаружить шаблоны и где критерии для запроса пока не известно).

Вопрос

У меня есть таблица, в которой каждая строка представляет собой «веб-сайт запрос». Существует столбец даты и времени, и я хотел бы, чтобы обнаружить закономерности в этих данных, чтобы ответить на такие вопросы, как:

  • , что является наиболее распространенным время дня, чтобы получить запрос
  • , что является наиболее распространенным день недель, чтобы получить запрос
  • другой полезной информации, которую я могу почерпнуть из данных, чтобы позволить мне предназначаться возможными клиентами

Это было бы похоже на функцию, которые вы часто видите в аналитике социальных медиа, такие как «Лучшее время для чириканья».

Я понимаю, что вычисление наиболее распространенного дня недели очень просто, поскольку дни - это незаметные объекты. Так что мне не нужна помощь!

Я хотел бы избежать простого разделения дня на четыре произвольных периода времени (например, завтрак, обед, ужин, ночное время) и подсчет количества строк, которые попадают в эти границы. Что делать, если эти периоды времени не подходят для сегментации данных?

Есть ли другой способ, кроме квантования моих данных с использованием произвольных границ?

+1

Здесь базы данных бесконечно более полезны, чем электронные таблицы – Strawberry

+0

Визуализируйте данные с помощью сводной таблицы? Группируйте поле даты (с учетом даты DateTime) по часам. Сводная таблица - очень хорошее начало – MacroMarc

ответ

1

Вы можете использовать кластеризацию, чтобы узнать, какие наиболее распространенные времена. В принципе, вы сравниваете временное разделение запросов и кластеризуете их так же, как дискретный набор чисел 1D, используя, например, средний критерий кластеризации связей. Когда вы достигнете достаточно небольшого количества кластеров, вы начнете видеть наиболее доминирующие времена дня (и если вы хотите оценить их, вы можете взять значения времени, которые являются взвешенными центрами крупнейших кластеров).

Смежные вопросы