Condividi tramite


Archiviazione predefinita in Databricks

Questa pagina illustra il funzionamento dell'archiviazione predefinita in Azure Databricks e come creare cataloghi e oggetti dati che lo usano.

Che cos'è l'archiviazione predefinita?

L'archiviazione predefinita è una piattaforma di archiviazione di oggetti completamente gestita che fornisce risorse di archiviazione pronte per l'uso nell'account Azure Databricks. Alcune funzionalità di Azure Databricks usano l'archiviazione predefinita come alternativa all'archiviazione esterna.

Le aree di lavoro serverless usano l'archiviazione predefinita per l'archiviazione interna e dell'area di lavoro e per il catalogo predefinito creato con l'area di lavoro. Nelle aree di lavoro serverless è possibile creare cataloghi aggiuntivi nell'archiviazione predefinita o nell'archiviazione di oggetti cloud.

Nelle aree di lavoro classiche e nelle aree di lavoro serverless, l'archiviazione predefinita viene usata dalle funzionalità per archiviare elementi come metadati del piano di controllo, dati derivati, modelli e altri artefatti. Ad esempio, Clean Rooms, Classificazione Dati, Rilevamento delle Anomalie e Agent Bricks usano tutti lo spazio di archiviazione predefinito di un'area di lavoro. Per dettagli su ciò che ogni funzionalità archivia nella memoria predefinita, consultare la documentazione delle singole funzionalità.

Annotazioni

Per informazioni sul monitoraggio dei costi di archiviazione predefiniti nell'account, vedere Monitorare i costi di archiviazione predefiniti.

Requisiti

  • La creazione di cataloghi nell'archiviazione predefinita è disponibile solo nelle aree di lavoro serverless.
  • Per impostazione predefinita, i cataloghi che usano l'archiviazione predefinita sono accessibili solo dall'area di lavoro in cui vengono creati. È possibile concedere ad altre aree di lavoro l'accesso, incluse le aree di lavoro classiche, ma è necessario usare il calcolo serverless per accedere ai dati nel catalogo. Vedere Limitare l'accesso al catalogo ad aree di lavoro specifiche.
  • È necessario disporre CREATE CATALOG dei privilegi per creare un catalogo con l'archiviazione predefinita. Vedere i privilegi e gli oggetti proteggibili di Unity Catalog.
  • Se il client usa il driver ODBC di Azure Databricks per accedere a un catalogo di archiviazione predefinito da dietro un firewall, è necessario configurare il firewall per consentire l'accesso ai gateway di archiviazione a livello di area di Azure Databricks. Per informazioni dettagliate su IP e nome di dominio per l'archiviazione predefinita, vedere Indirizzi IP e domini per i servizi e gli asset di Azure Databricks.

Creare un nuovo catalogo

Completare i passaggi seguenti per creare un nuovo catalogo usando l'archiviazione predefinita:

  1. Fare clic sull'icona Dati.Catalogo nella barra laterale. Viene visualizzato Esplora cataloghi.
  2. Fare clic su Crea Catalogo. Verrà visualizzata la finestra di dialogo Crea un nuovo catalogo .
  3. Specificare un nome catalogo univoco nell'account.
  4. Selezionare l'opzione Usa archiviazione predefinita.
  5. Clicca su Crea.

Nelle aree di lavoro serverless è anche possibile usare il comando SQL seguente per creare un nuovo catalogo nella risorsa di archiviazione predefinita. Non è necessario specificare una posizione per il catalogo.

CREATE CATALOG [ IF NOT EXISTS ] catalog_name
    [ COMMENT comment ]

Usare l'archiviazione predefinita

Tutte le interazioni con l'archiviazione predefinita richiedono risorse di calcolo serverless abilitate per il catalogo unity.

Le risorse supportate dall'archiviazione predefinita usano lo stesso modello di privilegio degli altri oggetti nel catalogo unity. È necessario disporre di privilegi sufficienti per creare, visualizzare, eseguire query o modificare oggetti dati. Vedere i privilegi e gli oggetti proteggibili di Unity Catalog.

È possibile usare l'archiviazione predefinita creando e interagire con tabelle gestite e volumi gestiti supportati dall'archiviazione predefinita. Vedere Tabelle gestite di Unity Catalog in Azure Databricks per Delta Lake e Apache Iceberg e Che cosa sono i volumi di Unity Catalog?.

È possibile usare Esplora cataloghi, notebook, editor SQL e dashboard per interagire con gli oggetti dati archiviati nell'archiviazione predefinita.

Attività di esempio

Di seguito sono riportati alcuni esempi di attività che è possibile completare con l'archiviazione predefinita:

Limitazioni

Si applicano le limitazioni seguenti:

  • Il calcolo classico (qualsiasi calcolo non serverless) non può interagire con gli asset di dati nella risorsa di archiviazione predefinita.
  • La condivisione differenziale supporta la condivisione di tabelle a qualsiasi destinatario, aperto o Azure Databricks, e i destinatari possono usare il calcolo classico per accedere alle tabelle condivise (Beta). Abilitare la funzionalità Condivisione differenziale per l'archiviazione predefinita- Accesso espanso nella console dell'account.
    • Questa funzionalità non è supportata nelle aree seguenti: southcentralus, uksouthe westus2.
    • Tutti gli altri asset condivisibili possono essere condivisi solo con i destinatari di Azure Databricks nello stesso cloud. I destinatari devono utilizzare il calcolo serverless.
  • Le tabelle con partizionamento abilitato non possono essere condivise delta.
  • I client Iceberg e Delta esterni non possono accedere direttamente ai metadati sottostanti, all'elenco dei manifesti e ai file di dati per le tabelle UC nell'archiviazione predefinita (l'accesso FileIO non è supportato). Tuttavia, gli strumenti di business intelligence come Power BI e Tableau possono accedere alle tabelle del catalogo Unity nell'archiviazione predefinita usando driver ODBC e JDBC. I client esterni possono anche accedere ai volumi del catalogo Unity nella risorsa di archiviazione predefinita usando l'API Files.
  • L'archiviazione predefinita supporta l'accesso esterno tramite driver ODBC e JDBC di Azure Databricks, inclusa l'ottimizzazione delle prestazioni di recupero cloud del driver ODBC per le query su set di dati di dimensioni maggiori. Tuttavia, se si accede a una tabella di archiviazione predefinita da un'area di lavoro con collegamento privato front-end abilitato, le query client ODBC superiori a 100 MB avranno esito negativo perché l'ottimizzazione del recupero cloud per le tabelle di archiviazione predefinite non supporta attualmente il collegamento privato front-end.