Opzioni di inserimento dati per un lakehouse

Esistono diversi modi per ottenere i dati in un lakehouse, da semplici caricamenti di file a pipeline scalabili e streaming in tempo reale. L'approccio corretto dipende dall'origine dati, dal volume, dalla complessità della trasformazione e dal fatto che sia necessario un caricamento monouso o un inserimento continuo.

Modalità di caricamento dei dati in un lakehouse

Le sezioni seguenti descrivono ogni approccio, ovvero caricamento di file, collegamenti, Dataflow Gen2, pipeline di dati, codice del notebook ed Eventstream, ordinati dall'opzione no-code più semplice a metodi programmatici e in tempo reale più avanzati.

Carica i file

Per caricare file di piccole dimensioni in una lakehouse senza alcuna trasformazione, caricarli direttamente dal computer locale tramite Lakehouse Explorer.

Scorciatoie

I collegamenti consentono di fare riferimento ai dati in altre posizioni di archiviazione senza copiarli. Un collegamento viene visualizzato come una cartella nel lakehouse, ma punta ai dati archiviati altrove, in un altro lakehouse, in un account Azure Data Lake Storage Gen2, Amazon S3 o in altre origini supportate. Le scorciatoie sono utili quando si desidera eseguire query o unire dati tra le origini senza duplicarli. Per ulteriori informazioni, vedere Scorciatoie in una lakehouse.

Flusso di dati Gen2

Dataflow Gen2 è uno strumento di trasformazione dei dati a basso codice con oltre 200 connettori. Le trasformazioni vengono definite visivamente in un'interfaccia di Power Query e vengono restituiti i risultati in una tabella lakehouse. Flusso di dati Gen2 è una scelta ottimale per set di dati più piccoli o quando sono necessari connettori non disponibili in altri strumenti. Per altre informazioni, vedere Creare il primo flusso di dati per ottenere e trasformare i dati.

Canali di dati

Le pipeline di dati offrono uno strumento di copia scalabile per lo spostamento di grandi volumi di dati in un lakehouse. L'attività Copia si connette a un'ampia gamma di origini dati e può caricare i dati nel formato originale o convertirli in una tabella Delta. È possibile pianificare le pipeline, attivarle in base agli eventi e concatenare più attività tra loro. Per altre informazioni, vedere Come copiare i dati usando l'attività di copia.

Codice del notebook

I notebook Spark offrono un controllo completo a livello di codice sull'inserimento dati. Usare le librerie Spark per connettersi a un'origine dati, caricare i dati in un dataframe, applicare trasformazioni e salvare i risultati in una lakehouse. Questo approccio è il più flessibile e adatto alla logica di trasformazione complessa o alle origini che altri strumenti non supportano.

Note

Le tabelle Delta esterne create con il codice Spark non sono visibili a un endpoint di analisi SQL. Usare i collegamenti nella sezione Tabelle per rendere visibili le tabelle Delta esterne per un endpoint di analisi SQL. Per ulteriori informazioni, vedere Scorciatoie in una lakehouse.

Flusso di eventi

Eventstream acquisisce, elabora e instrada eventi in tempo reale ad alto volume da un'ampia varietà di origini. È possibile aggiungere una lakehouse come destinazione per inviare i dati in streaming direttamente nelle tabelle Delta.

Per ulteriori informazioni, consultare Ottenere dati da Eventstream in un'architettura dati lakehouse.

Per scenari di streaming di serie temporali o ad alto rendimento, è anche possibile trasmettere eventi in un Eventhouse e abilitare l'accessibilità di OneLake. In questo modo viene creata una tabella Delta in OneLake a cui un lakehouse può accedere tramite un collegamento. Per altre informazioni, vedere Disponibilità di OneLake di Eventhouse.

Scegliere un approccio

La tabella seguente riepiloga quando usare ogni approccio per il caricamento dei dati in un lakehouse.

Scenario	Approccio consigliato
File di piccole dimensioni da un computer locale	Carica i file
Dati di riferimento senza copiarli	Scorciatoie
Dati da piccole a medie con trasformazioni visive	Flusso di dati Gen2
Spostamento dei dati su larga scala	Canali di dati
Trasformazioni complesse o origini non supportate	Codice del notebook
Inserimento di eventi in tempo reale	Flusso di eventi
Streaming di serie temporali o ad alto rendimento	Flusso di eventi su Eventhouse con disponibilità di OneLake

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-02-25