Я начинаю свое путешествие в дельта-таблицы, и одна вещь, которая все еще меня смущает, - это лучшее место для сохранения ваших дельта-таблиц, если вам понадобится запросить их позже.

Например, я переношу несколько таблиц из локальных блоков данных в лазурные в отдельные дельта-таблицы. У меня вопрос: следует ли сохранять отдельные дельта-таблицы, которые могут быть значительными по размеру, во внутреннем хранилище DBFS databricks, или мне следует смонтировать место хранения больших двоичных объектов и сохранить там таблицы дельта-озера? Что обычно делают люди в таких ситуациях?

1
DiegoM 22 Фев 2021 в 03:29

1 ответ

Лучший ответ

Я обычно рекомендую людям хранить данные в отдельной учетной записи хранения (подключенной или используемой напрямую) и не использовать внутреннее хранилище рабочей области для этих задач. Основная причина - проще поделиться этими данными с другими рабочими пространствами или другими системами, если это необходимо. Внутреннее хранилище следует в первую очередь использовать для временных файлов, библиотек, сценариев инициализации и т. Д.

Существует ряд полезных руководств, которые могут помочь:

1
Alex Ott 22 Фев 2021 в 10:00