Azure Data Lake Store параллелизм

Я работал с Azure Data Lake Store, и в документации Microsoft утверждает, что система оптимизирована для небольших записей в файлах с малой задержкой. Протестировав это, я попытался выполнить большой объем операций записи в параллельных задачах в один файл, но этот метод в большинстве случаев возвращает неверный запрос. Эта ссылка https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf показывает, что HDFS не предназначен для обработки параллельных добавлений в одном файле, поэтому я повторил второй раз с помощью метода ConcurrentAppendAsync, найденного в API, но хотя этот метод не разбился, мой файл никогда не изменялся в хранилище ,Azure Data Lake Store параллелизм

источник

2016-03-10 evilpilaf

Что вы выяснили, правильно, как работают параллельные записи. Я предполагаю, что вы уже прочитали documentation ConcurrentAppendAsync.

Итак, в вашем случае, вы использовали тот же файл для теста записи Webhdfs и ConcurrentAppendAsync? Если это так, то ConcurrentAppendAsync не будет работать, как указано в документации. Но в этом случае вы должны получить ошибку.

В любом случае, сообщите нам, что произошло, и мы можем исследовать дальше.

Спасибо,

Сэчин Sheth

Руководитель программы - Лазурное озеро данных

источник

2016-03-11 23:06:17

Я не знаю, что я делаю неправильно, но ConcurrentAppendAsync ничего не добавляет к моему файлу, но это не подводит – evilpilaf

Можете ли вы связаться со мной по электронной почте - sachinsatmicrosoftdotcom? Хотелось бы посмотреть, что происходит в деталях. Благодарю. –

Ссылка не работает, можете ли вы предоставить обновленную версию? – aoetalks

Azure Data Lake Store параллелизм

ответ

Смежные вопросы