Может ли кто-нибудь указать мне на ссылку или предоставить обзор на высоком уровне о том, как компании, такие как Facebook, Yahoo, Google и т. Д., Выполняют широкомасштабный (например, многотомный диапазон) анализ журнала, который они выполняют для операций и особенно для веб-аналитики?Реализация крупномасштабной аналитики журналов журналов
В частности, в отношении веб-аналитики, меня интересуют два тесно связанных аспекта: производительность запросов и хранение данных.
Я знаю, что общий подход заключается в использовании сокращения карты для распределения каждого запроса по кластеру (например, с использованием Hadoop). Однако каков наиболее эффективный формат хранения? Это данные журнала, поэтому мы можем предположить, что каждое событие имеет отметку времени, и в целом данные структурированы и не разрежены. Большинство запросов веб-аналитики включают в себя анализ фрагментов данных между двумя произвольными метками времени и извлечение статистических данных или аномалий в этих данных.
Будет ли эффективный способ хранения столбцов, таких как Big Table (или HBase), и, что более важно, запрашивать такие данные? Означает ли тот факт, что вы выбираете подмножество строк (на основе временной метки), работает против основной предпосылки этого типа хранилища? Было бы лучше сохранить его как неструктурированные данные, например. обратный индекс?
+1 для указателя на данные Aster. Никогда не слышал о них раньше, и они выглядят интересными. – Elad