Я знаю, что это не связано с программированием, но я надеюсь, что некоторые отзывы помогут мне в страданиях.Приложение для графического отображения множества связанных с сетью данных
У нас на самом деле много и разных данных из наших веб-приложений, датированных годами назад.
Например, мы
- Apache LogFiles
- Ежедневных статистических файлов с нашего отслеживанием программного обеспечения (CSV)
- Другой ежедневной статистикой из общегосударственного рейтинга для рекламы (CSV)
- .. и я могу, вероятно, также создавать новые данные из других источников.
Некоторые записи данных начались в 2005 году, некоторые из них в 2006 году и т. Д. Однако в какой-то момент времени у нас начинаются данные всех из них.
Что я древа^H^H^H^Поиск - это приложение для понимания всех данных, позволяет мне загружать их, сравнивать отдельные наборы данных и графики времени (графически), сравнивать разные наборы данных в одно и то же время span, позвольте мне фильтровать (особенно файл журнала Apache); и, конечно же, все это должно быть интерактивно.
Только сжатые файлы журнала Apache, сжатые BZ2, в общей сложности составляют 21 ГБ, которые растут еженедельно.
У меня не было реального успеха с такими вещами, как awstats, анализатор сетевых журналов Nihu или аналогичные инструменты. Они могут просто создавать статистическую информацию, но мне нужно будет интерактивно запросить информацию, применить фильтры, проложить другие данные и т. Д.
Я также пробовал инструменты для интеллектуального анализа данных в надежде, что они могут мне помочь, но на самом деле успех в их использовании (т.е. они над моей головой), например RapidMiner.
Просто чтобы убедиться в этом: может быть коммерческим приложением. Но все же нужно найти что-то, что действительно полезно.
Как-то у меня создается впечатление, что я ищу что-то, чего не существует, или у меня неправильный подход. Любые намеки приветствуются.
Update:
В конце концов я была смесь из следующих вещей:
- написал Баш и PHP скрипты для анализа и управления разбора файлов журналов, в том числе много возможностей фильтрации
- сгенерированный простой CSV-файл для чтения в Excel. Мне повезло использовать Excel 2007 и графические возможности, хотя они все еще работают с фиксированным набором данных, помогли много
- Я использовал Amazon EC2 для запуска скрипта и отправки CSV по электронной почте. Мне пришлось проползти около 200 ГБ данных и, таким образом, использовала один из больших экземпляров для параллелизации синтаксического анализа. Мне пришлось выполнить многочисленные попытки синтаксического анализа, чтобы получить правильные данные, общая продолжительность обработки составила 45 минут. Я не знаю, что бы я мог сделать без Amazon EC2. Это стоило каждого доллара, который я заплатил за это.
Марк, Какой вид анализа вы нашли полезным при анализе данных веб-сервера/объявлений? Какие интерактивные функции вам больше всего нравятся? Я рассматриваю возможность создания веб-программы, которая могла бы помочь со всей работой, которую вы должны были сделать. Любое понимание, основанное на вашем опыте, было бы полезно! – DevX