Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Esistono diversi modi per ottenere i dati in un lakehouse, da semplici caricamenti di file a pipeline scalabili e streaming in tempo reale. L'approccio corretto dipende dall'origine dati, dal volume, dalla complessità della trasformazione e dal fatto che sia necessario un caricamento monouso o un inserimento continuo.
Modalità di caricamento dei dati in un lakehouse
Le sezioni seguenti descrivono ogni approccio, ovvero caricamento di file, collegamenti, Dataflow Gen2, pipeline di dati, codice del notebook ed Eventstream, ordinati dall'opzione no-code più semplice a metodi programmatici e in tempo reale più avanzati.
Carica i file
Per caricare file di piccole dimensioni in una lakehouse senza alcuna trasformazione, caricarli direttamente dal computer locale tramite Lakehouse Explorer.
Scorciatoie
I collegamenti consentono di fare riferimento ai dati in altre posizioni di archiviazione senza copiarli. Un collegamento viene visualizzato come una cartella nel lakehouse, ma punta ai dati archiviati altrove, in un altro lakehouse, in un account Azure Data Lake Storage Gen2, Amazon S3 o in altre origini supportate. Le scorciatoie sono utili quando si desidera eseguire query o unire dati tra le origini senza duplicarli. Per ulteriori informazioni, vedere Scorciatoie in una lakehouse.
Flusso di dati Gen2
Dataflow Gen2 è uno strumento di trasformazione dei dati a basso codice con oltre 200 connettori. Le trasformazioni vengono definite visivamente in un'interfaccia di Power Query e vengono restituiti i risultati in una tabella lakehouse. Flusso di dati Gen2 è una scelta ottimale per set di dati più piccoli o quando sono necessari connettori non disponibili in altri strumenti. Per altre informazioni, vedere Creare il primo flusso di dati per ottenere e trasformare i dati.
Canali di dati
Le pipeline di dati offrono uno strumento di copia scalabile per lo spostamento di grandi volumi di dati in un lakehouse. L'attività Copia si connette a un'ampia gamma di origini dati e può caricare i dati nel formato originale o convertirli in una tabella Delta. È possibile pianificare le pipeline, attivarle in base agli eventi e concatenare più attività tra loro. Per altre informazioni, vedere Come copiare i dati usando l'attività di copia.
Codice del notebook
I notebook Spark offrono un controllo completo a livello di codice sull'inserimento dati. Usare le librerie Spark per connettersi a un'origine dati, caricare i dati in un dataframe, applicare trasformazioni e salvare i risultati in una lakehouse. Questo approccio è il più flessibile e adatto alla logica di trasformazione complessa o alle origini che altri strumenti non supportano.
Note
Le tabelle Delta esterne create con il codice Spark non sono visibili a un endpoint di analisi SQL. Usare i collegamenti nella sezione Tabelle per rendere visibili le tabelle Delta esterne per un endpoint di analisi SQL. Per ulteriori informazioni, vedere Scorciatoie in una lakehouse.
Flusso di eventi
Eventstream acquisisce, elabora e instrada eventi in tempo reale ad alto volume da un'ampia varietà di origini. È possibile aggiungere una lakehouse come destinazione per inviare i dati in streaming direttamente nelle tabelle Delta.
Per ulteriori informazioni, consultare Ottenere dati da Eventstream in un'architettura dati lakehouse.
Per scenari di streaming di serie temporali o ad alto rendimento, è anche possibile trasmettere eventi in un Eventhouse e abilitare l'accessibilità di OneLake. In questo modo viene creata una tabella Delta in OneLake a cui un lakehouse può accedere tramite un collegamento. Per altre informazioni, vedere Disponibilità di OneLake di Eventhouse.
Scegliere un approccio
La tabella seguente riepiloga quando usare ogni approccio per il caricamento dei dati in un lakehouse.
| Scenario | Approccio consigliato |
|---|---|
| File di piccole dimensioni da un computer locale | Carica i file |
| Dati di riferimento senza copiarli | Scorciatoie |
| Dati da piccole a medie con trasformazioni visive | Flusso di dati Gen2 |
| Spostamento dei dati su larga scala | Canali di dati |
| Trasformazioni complesse o origini non supportate | Codice del notebook |
| Inserimento di eventi in tempo reale | Flusso di eventi |
| Streaming di serie temporali o ad alto rendimento | Flusso di eventi su Eventhouse con disponibilità di OneLake |
Contenuti correlati
- Collegamenti in una lakehouse
- Flusso di dati in un data lakehouse con Spark
- Come copiare i dati utilizzando l'attività di copia
- Creare il primo flusso di dati per ottenere e trasformare i dati
- Esplora i dati nel lakehouse con un notebook
- Aggiungere una destinazione lakehouse a un flusso di eventi
- Disponibilità di OneLake di Eventhouse