2017-02-22 18 views
2

Я не хочу использовать ADL и ADLA как черный ящик. Мне нужно понять, как шестерни вращаются внутри, чтобы эффективно использовать его.Могу ли я иметь какие-либо книги об Internals озера Azure Data?

Где я могу найти информацию, описывающую внутренности:

  1. как U-SQL запрос обрабатывается
  2. как параллелизм работал
  3. как хранение организовано в ADL на низком уровне
  4. как Хранилище DB организовано в ADL на низком уровне (это rowstore или columnstore)
  5. как организовано разделение
  6. и т. Д.

Существует множество книг и белых пилотов, в которых описаны внутренние элементы двигателя РСУБД. Он существует для ADL/ADLA?

Есть много парней, которые работают в Azure. Могли бы вы опубликовать любые черновики/белые пиксели для использования как есть (неосновательно).

ответ

4

Некоторые из этих сведений доступны в представленных нами презентациях. Например, вы можете найти некоторые из этих презентаций в моей учетной записи на слайд-шоу по адресу: http://www.slideshare.net/MichaelRys.

Чтобы ответить на некоторые ваши вопросы выше:

Текущий кластерный индекс версии таблиц U-SQL хранятся в вашем каталоге папку структурированную в виде так называемых структурированных файлов потока. Это сильно сжимаемые, масштабированные файлы, в которых используется структура, ориентированная на ряд, с автономными метаданными и статистикой (может быть создана более подробная статистика). Конструкция таблицы обеспечивает разделение на 2 уровня: адресные разделы и внутренние схемы распределения (HASH, RANGE и т. Д.). Оба помогают с распараллеливанием, хотя схемы распределения больше для производительности, а раздел больше для управления жизненным циклом данных. Их нет предела, хотя сладкое пятно от 1 до 4 ГБ на раздаточное ведро.

1 AU в основном 1 контейнер. И ADLS не является HDFS архитектурно, но предлагает API WebHDFS для обеспечения совместимости.

+0

большое спасибо снова за потрясающее объяснение! – churupaha

+0

похоже, что команда ADL собирается внедрить вторичные индексы и поддержку столбцов? Я прочитал его в презентации https://www.slideshare.net/mobile/MichaelRys/tuning-and-optimizing-usql-queries-sqlpass-2016 Знаете ли вы, когда планируете его реализовать? – churupaha

+0

Это будущая дорожная карта, и в настоящее время у нас нет ETA для этих предметов. –

1

Это довольно широкий вопрос. Я предполагаю, что вы начали с существующей документации по ADLA и U-SQL? https://docs.microsoft.com/en-us/azure/data-lake-analytics/ https://msdn.microsoft.com/library/azure/mt591959

ADLA GA'd в ноябре 2016 года, по сравнению с SQL Server в 1987 году - это очень яблоки и апельсины сравнение.

Возможно, мы сможем начать с ваших конкретных вопросов?

+0

Да, сервер sql очень зрелый. Но у него много новых праздников. И мы можем прочитать глубокие объяснения технических парней о том, как эти функции не работают до того, как эти функции будут выпущены. Ok позволяет начать с конкретного вопроса. Можете ли вы объяснить, что такое таблица u-sql? Это rowstore или columnstore? Что такое раздел со всех точек зрения (параллелизм, фильтрация, управляемость и т. Д.). Что такое распространение? Это то же самое, что и в случае с Azure DWH? Как разделение и распределение влияют на параллелизм. Насколько велика может быть таблица/раздел/распределение? – churupaha

+0

Что относительно перекошенных распределений с точки зрения параллелизма. Как насчет статистики по столбцам? Как механизм usql выбирает конкретный план выполнения (я имею в виду «граф» с вершинами) ... Является ли кластеризованный индекс таким же, как в sql-сервере? – churupaha

+0

Является аналитическим подразделением = ЯРНА Контейнерное подземелье? – churupaha

Смежные вопросы