2010-04-19 5 views
4

У меня есть регистратор данных, не связанный с компьютером, который собирает данные из этого поля. Эти данные хранятся в виде текстовых файлов, и я вручную объединяю файлы и организую их. Текущий формат - через csv-файл в год для каждого регистратора. Каждый файл составляет около 4 000 000 строк x 7 регистраторов x 5 лет = множество данных. некоторые из данных организованы как бины item_type, item_class, item_dimension_class и другие данные более уникальные, такие как item_weight, item_color, date_collected и т. д.Статистический анализ большого набора данных, который будет опубликован в сети

В настоящее время я делаю статистический анализ данных с использованием Программа python/numpy/matplotlib, которую я написал. Он работает отлично, но проблема в том, что я единственный, кто может его использовать, поскольку он и данные живут на моем компьютере.

Я хотел бы опубликовать данные в Интернете, используя postgres db; однако мне нужно найти или внедрить статистический инструмент, который займет большую таблицу postgres и вернет статистические результаты в течение достаточного периода времени. Я не знаком с python для Интернета; Тем не менее, я владею PHP на веб-сайте и python на стороне офлайн.

пользователям должно быть разрешено создавать свои собственные гистограммы, анализ данных. Например, пользователь может искать все элементы, которые отправляются в синий цвет между неделями x и неделей y, в то время как другой пользователь может искать сортировку по весу всех предметов по часам в течение всего года.

Я думал о создании и индексировании своих собственных статистических инструментов или автоматизации процесса, чтобы каким-то образом подражать большинству запросов. Это казалось неэффективным.

Я с нетерпением жду, чтобы услышать ваши идеи

Благодаря

ответ

1

Я думаю, что вы можете использовать текущую комбинацию (питон/NumPy/Matplotlib) полностью, если число пользователей не слишком велики. Я делаю некоторые подобные работы, а размер моих данных чуть больше 10 г. Данные хранятся в нескольких файлах sqlite, и я использую numpy для анализа данных, PIL/matplotlib для создания файлов диаграмм (png, gif), cherrypy в качестве веб-сервера, mako в качестве языка шаблонов.

Если вам нужно больше базы данных сервера/клиента, вы можете перейти на postgresql, но вы все еще можете полностью использовать свои текущие программы, если вы идете с веб-картой python, например, с вихревым.

+0

Хорошо спасибо за предложение .. пересечение пальцев – dassouki

Смежные вопросы