Реализация крупномасштабной аналитики журналов журналов

Может ли кто-нибудь указать мне на ссылку или предоставить обзор на высоком уровне о том, как компании, такие как Facebook, Yahoo, Google и т. Д., Выполняют широкомасштабный (например, многотомный диапазон) анализ журнала, который они выполняют для операций и особенно для веб-аналитики?Реализация крупномасштабной аналитики журналов журналов

В частности, в отношении веб-аналитики, меня интересуют два тесно связанных аспекта: производительность запросов и хранение данных.

Я знаю, что общий подход заключается в использовании сокращения карты для распределения каждого запроса по кластеру (например, с использованием Hadoop). Однако каков наиболее эффективный формат хранения? Это данные журнала, поэтому мы можем предположить, что каждое событие имеет отметку времени, и в целом данные структурированы и не разрежены. Большинство запросов веб-аналитики включают в себя анализ фрагментов данных между двумя произвольными метками времени и извлечение статистических данных или аномалий в этих данных.

Будет ли эффективный способ хранения столбцов, таких как Big Table (или HBase), и, что более важно, запрашивать такие данные? Означает ли тот факт, что вы выбираете подмножество строк (на основе временной метки), работает против основной предпосылки этого типа хранилища? Было бы лучше сохранить его как неструктурированные данные, например. обратный индекс?

источник

2009-04-27 Rob

К сожалению, ни один из них не подходит для всех ответов.

В настоящее время я использую Cascading, Hadoop, S3 и Aster Data для обработки 100-го концерта в течение всего поэтапного конвейера внутри AWS.

Данные Aster используются для запросов и отчетов, поскольку он предоставляет интерфейс SQL для массивных наборов данных, очищенных и проанализированных каскадными процессами на Hadoop. Используя Cascading JDBC-интерфейсы, загрузка данных Aster довольно тривиальна.

Имейте в виду, что такие инструменты, как HBase и Hypertable, являются хранилищами Key/Value, поэтому не делайте специальных запросов и соединений без помощи приложения MapReduce/Cascading для выполнения объединений вне диапазона, что очень важно полезный рисунок.

полностью раскрывается, я разработчик проекта Cascading.

http://www.asterdata.com/

http://www.cascading.org/

источник

2009-04-28 17:09:57 cwensel

+1 для указателя на данные Aster. Никогда не слышал о них раньше, и они выглядят интересными. – Elad

Посмотрите на статью Interpreting the Data: Parallel Analysis with Sawzall. Это документ об инструменте, который Google использует для анализа журналов.

источник

2009-04-27 19:42:34 marcog

Книга Hadoop: Полное руководство по O'Reilly есть глава, которая обсуждает, как Hadoop используется в двух реальных компаний.

http://my.safaribooksonline.com/9780596521974/ch14

источник

2009-06-18 20:22:44 caskey