2009-04-10 3 views
3

Я знаю, что это не связано с программированием, но я надеюсь, что некоторые отзывы помогут мне в страданиях.Приложение для графического отображения множества связанных с сетью данных

У нас на самом деле много и разных данных из наших веб-приложений, датированных годами назад.

Например, мы

  • Apache LogFiles
  • Ежедневных статистических файлов с нашего отслеживанием программного обеспечения (CSV)
  • Другой ежедневной статистикой из общегосударственного рейтинга для рекламы (CSV)
  • .. и я могу, вероятно, также создавать новые данные из других источников.

Некоторые записи данных начались в 2005 году, некоторые из них в 2006 году и т. Д. Однако в какой-то момент времени у нас начинаются данные всех из них.

Что я древа^H^H^H^Поиск - это приложение для понимания всех данных, позволяет мне загружать их, сравнивать отдельные наборы данных и графики времени (графически), сравнивать разные наборы данных в одно и то же время span, позвольте мне фильтровать (особенно файл журнала Apache); и, конечно же, все это должно быть интерактивно.

Только сжатые файлы журнала Apache, сжатые BZ2, в общей сложности составляют 21 ГБ, которые растут еженедельно.

У меня не было реального успеха с такими вещами, как awstats, анализатор сетевых журналов Nihu или аналогичные инструменты. Они могут просто создавать статистическую информацию, но мне нужно будет интерактивно запросить информацию, применить фильтры, проложить другие данные и т. Д.

Я также пробовал инструменты для интеллектуального анализа данных в надежде, что они могут мне помочь, но на самом деле успех в их использовании (т.е. они над моей головой), например RapidMiner.

Просто чтобы убедиться в этом: может быть коммерческим приложением. Но все же нужно найти что-то, что действительно полезно.

Как-то у меня создается впечатление, что я ищу что-то, чего не существует, или у меня неправильный подход. Любые намеки приветствуются.

Update:

В конце концов я была смесь из следующих вещей:

  • написал Баш и PHP скрипты для анализа и управления разбора файлов журналов, в том числе много возможностей фильтрации
  • сгенерированный простой CSV-файл для чтения в Excel. Мне повезло использовать Excel 2007 и графические возможности, хотя они все еще работают с фиксированным набором данных, помогли много
  • Я использовал Amazon EC2 для запуска скрипта и отправки CSV по электронной почте. Мне пришлось проползти около 200 ГБ данных и, таким образом, использовала один из больших экземпляров для параллелизации синтаксического анализа. Мне пришлось выполнить многочисленные попытки синтаксического анализа, чтобы получить правильные данные, общая продолжительность обработки составила 45 минут. Я не знаю, что бы я мог сделать без Amazon EC2. Это стоило каждого доллара, который я заплатил за это.
+0

Марк, Какой вид анализа вы нашли полезным при анализе данных веб-сервера/объявлений? Какие интерактивные функции вам больше всего нравятся? Я рассматриваю возможность создания веб-программы, которая могла бы помочь со всей работой, которую вы должны были сделать. Любое понимание, основанное на вашем опыте, было бы полезно! – DevX

ответ

0

В интересах полного раскрытия я не использовал коммерческих инструментов для описания.

Вы посмотрели LogParser? Он может быть более ручным, чем ваш поиск, но он позволит вам запрашивать множество различных структурированных форматов.

Что касается графического аспекта, то в нем встроены некоторые основные возможности построения диаграмм, но, скорее всего, вы получите гораздо больше пробега, передавая вывод парсера журнала в табличный/разделительный формат и загружая в Excel. Оттуда вы можете составить график/график практически во всем.

Что касается перекрестного соединения разных источников данных, вы всегда можете перекачать все данные в базу данных, где у вас будет более богатый язык для запроса данных.

0

Что вы ищете - это «каркас для интеллектуального анализа данных», то есть что-то, что с удовольствием съедает гигабайты нескольких случайных данных, а затем позволяет вам срезать его еще неизвестными способами, чтобы найти золотые самородки, глубоко погруженные внутри статического.

Некоторые ссылки:

  • CloudBase: «CloudBase является высокопроизводительным хранилище данных системы, построенной на вершине Map-Reduce архитектуры Это позволяет бизнес-аналитики с помощью прямого запроса лог-файлы крупномасштабных ANSI SQL. возникающих на веб-сайтах, телекоммуникациях или ИТ-операциях ».

  • RapidMiner: «RapidMiner aleady является полным анализом данных и бизнес-аналитика двигатель, который также охватывает множество смежных аспектов, начиная от ETL (Extract, Transform & нагрузки) по анализу для отчетности.»

+0

Как я уже сказал, RapidMiner на самом деле не режет его. CloudBase читает очень интересную, но собранную из документации она выглядит очень сырой, как будто это «lucene», а не что-то построенное сверху, чтобы сделать ее пригодной для использования из коробки, как «Solr». Или, другими словами: из коробки поддержка загрузки различных файлов данных, кроме SQL и GUI для работы с данными, не является частью этого, мне кажется. Спасибо – mark

1

открытым исходным кодом интеллектуального анализа данных и разработка программного обеспечения веб-RapidMiner может импортировать как файлы журналов веб-сервера Apache, а также CSV файлов, а также может импортировать и экспортировать Excel листы. Rapid-I предлагает множество учебных курсов для RapidMiner, некоторые из них также посвящены поиску полезных ископаемых и использованию веб-ресурсов.

Смежные вопросы