Реляционная база данных по сравнению с кадрами данных R/Python

Я столкнулся с миром таблиц и структур данных в R перед системами РСУБД и другими системами баз данных. В R/Python довольно элегантно создавать таблицы и списки из данных (CSV или других форматов), а затем делать программные операции с данными.Реляционная база данных по сравнению с кадрами данных R/Python

В прошлом году я посетил курс по управлению базами данных и узнал все о структурированных и неструктурированных базах данных. Я также заметил, что нормой является передача данных из нескольких источников данных в базы данных, а не прямое использование их в R (для удобства и дисциплины?).

Для исследовательских целей R, похоже, достаточно для соединения, добавления или даже сложных манипуляций с данными.

Вопросы, возникающие в связи с этим: Когда использовать R напрямую с помощью таких команд, как read.csv, когда использовать R, создавая базу данных и запрашивая таблицы, используя интерфейс R-SQL?

Например, если у меня есть данные с несколькими источниками, такие как (а) информация о персональном уровне (возраст, пол, привычки к курению), (б) переменные результата (например, обследования, проведенные ими в режиме реального времени), (c) Ковариационная информация (характеристики окружающей среды), (d) Ввод обработки (появление события, которое изменяет результат - ответ на съемку) (d) Информация о времени и пространстве участников, принимающих обследование

Как подойти к сбору и обработке данных в этом случае. Могут быть стандартные отраслевые процедуры, но я поставил здесь этот вопрос, чтобы понять список возможных и оптимальных подходов, которые могут принять отдельные лица и небольшая группа исследователей.

источник

2015-05-14 Earnest_learner

Что вы описываете, когда говорите «что это норма для передачи данных из нескольких источников данных в базы данных», звучит более конкретно как хранилище данных. Базы данных используются по многим причинам, и в большом количестве ситуаций они будут хранить данные из одного источника - например, база данных, используемая в качестве хранилища данных транзакционной системы, часто содержит только данные, необходимые для запуска этой системы, и данные, полученные этой системой.

Процесс, который вы описываете, обычно называется Extract, Transform, Load (ETL), и вы можете найти полезную информацию об ETL и хранилище данных, если вы решите пойти в направлении объединения ваших данных до работы с ним в R.

Я не могу сказать вам, что вы должны выбрать, или оптимальный способ его достижения, поскольку он будет варьироваться в разных ситуациях и даже может прийти к мнению. То, что я могу вам сказать, - это некоторые из причин, по которым люди создают хранилища данных, и вы сами можете решить, может ли это быть полезно в вашей ситуации:

Хранилище данных может предоставлять центральное место для хранения комбинированных данных. Это означает, что людям не нужно комбинировать данные самостоятельно каждый раз, когда им нужно использовать эту конкретную комбинацию данных. В отличие от простого одноразового отчета или извлечения комбинированных данных, он должен обеспечить некоторую гибкость, позволяя людям получить объединенный набор данных, необходимых для конкретной задачи. Очень часто в корпоративных ситуациях несколько вещей выполняются поверх того же объединенного набора данных - многомерных инструментов анализа данных (кубов), отчетов, интеллектуального анализа данных и т. Д.

Некоторые из преимуществ этого могут включать :

Индивидуумы экономят время, когда они в противном случае были бы необходимы для объединения самих данных.
Если данные, которые необходимо объединить, являются сложными, или некоторые люди не владеют навыками обработки этой части процесса, тогда существует меньший риск комбинирования данных; вы можете быть уверены, что разные части работы используют одни и те же исходные данные.
Если данные страдают из-за проблем с качеством данных, вы разрешаете это один раз в хранилище данных, а не работаете с ним или неоднократно разрешаете его в коде.
Если новые данные постоянно принимаются, сбор и интеграция этого в хранилище данных могут выполняться автоматически.

Как я уже сказал, я не могу решить, будет ли это полезным направлением или нет - как и при любом таком решении, вам нужно взвесить затраты на реализацию такого решения против преимуществ , и оба будут специфическими для вашего индивидуального случая. Но, надеюсь, это ответит на ваш основной вопрос: почему кто-то может решить эту работу в базе данных, а не в своем коде, и дает вам отправную точку для работы.

источник

2015-05-15 12:57:07

Каковы инструменты с открытым исходным кодом, которые я могу использовать для ETL и хранилища данных в моем случае? Я выполняю поиск с обработкой и хранением данных исключительно своей ответственностью в проекте вместе с анализом данных. Таким образом, основное внимание уделяется анализу данных, а не совместному использованию данных с другими. Ваше решение звучит интересно, и я должен попробовать. Я просмотрел этот сайт http://butleranalytics.com/5-free-open-source-etl-tools/ и нашел инструменты ETL с открытым исходным кодом, такие как TALEND, которые я должен попробовать. Но в конце концов анализ данных и ML можно сделать на одной электронной таблице входов и выходов, так что вы чувствуете. –

Я забыл сказать, спасибо! –

@Earnest_learner Рад ответить помогло. :) Часть причины, по которой я избегал каких-либо рекомендаций, заключается в том, что она противоречит правилам SO, которые запрашивают рекомендации по программному обеспечению и тому подобное, поскольку они склонны впадать в спам или просто быть слишком основанными на мнениях. Кроме того, у меня очень мало опыта использования инструментов ETL с открытым исходным кодом (я использую сочетание SSIS и SQL/T-SQL на SQL Server). Имейте в виду, что ETL можно сделать в коде (SQL или что-то еще). Я слышал примеры людей, использующих Python, но я не уверен, как это будет выполняться. То, что подходит (и возможно), действительно сводится к вашим конкретным обстоятельствам. –

Реляционная база данных по сравнению с кадрами данных R/Python

ответ

Смежные вопросы