Я пытаюсь провести исследование с поисковыми журналами. Мой первый интерес - найти тенденции. Например: зимой у людей часто бывает холодная болячка. Поэтому я думаю, что зимой мы можем наблюдать рост таких запросов типа.Найти тенденции в журнале запросов поисковых систем
Как я хочу, чтобы обнаружить тенденции:
- Использование априорной алгоритма или что-то, чтобы получить частый элемент набора.
- Count число каждого набора в диапазоне времени (один час, один день и т.д.)
- Использование линейной регрессии для найденного относительного изменения функции , если это регресс ах + Ь, то просто вычислить (а * (first_date) + б)/(а * (second_date) + б)
Так у меня есть проблема: Это очень трудно найденного частом пункта, установленного на большом наборе данных (у меня есть миллионы запросов). Я реализовал алгоритм априорного алгоритма, но он работает очень медленно с низкой поддержкой (например, 2 на 200k запросах может занять день)
Какой лучший алгоритм в моем случае? Может быть, я могу решить свою задачу по-другому?
@Yavar У меня есть только одна машина (или две). Вот почему я не могу разойтись. – Neir0