Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Vedere Gestire le anteprime di Azure Databricks.
Questa pagina include esempi di notebook per l'addestramento distribuito su più nodi e su più GPU utilizzando il calcolo GPU serverless. Questi esempi illustrano come ridimensionare il training tra più GPU e nodi per migliorare le prestazioni.
Scegliere la tecnica di parallelismo
Quando si ridimensiona l'addestramento del modello tra più GPU, la scelta della tecnica di parallelismo appropriata dipende dalle dimensioni del modello, dalla memoria GPU disponibile e dai requisiti di prestazione.
| Tecnica | Quando utilizzare |
|---|---|
| DDP (parallelismo dei dati distribuiti) | Il modello completo si adatta a una singola memoria GPU; è necessario ridimensionare la velocità effettiva dei dati |
| FSDP (parallela dei dati completamente suddivisi) | Modelli molto grandi che non rientrano nella memoria singola GPU |
| DeepSpeed ZeRO | Modelli di grandi dimensioni con esigenze avanzate di ottimizzazione della memoria |
Per informazioni dettagliate su ogni tecnica, vedere DDP, FSDP e DeepSpeed.
Esempi di notebook per metodi e framework
La tabella seguente organizza i notebook di esempio in base al framework o alla libreria in uso e la tecnica di parallelismo applicata. Più notebook (file di lavoro) possono essere visualizzati in una singola cella.
| Framework/Library | Esempi di DDP | Esempi di FSDP | Esempi di DeepSpeed |
|---|---|---|---|
| PyTorch (nativo) |
Rete neurale MLP semplice Rilevamento delle immagini RetinaNet |
Trasformatore di parametri 10M | — |
| Huggingface TRL | Ottimizzare Gpt OSS 20B | Ottimizzare Gpt OSS 120B | Ottimizzare Llama 3.2 1B |
| Annullamento dell'annullamento | Ottimizzare finemente Llama 3.2 3B | — | — |
| Axolotl | Perfezionare Olmo3 7B | — | — |
| Mosaico LLM Foundry | Perfezionare Llama 3.2 8B | — | — |
| Ray Train |
ResNet18 in FashionMNIST (visione artificiale) Ottimizzazione degli iperparametri XGBoost |
— | — |
| Fulmine | Sistema di raccomandazione a due torre | — | — |
Get started
Il notebook seguente include un esempio di base di come usare l'API Python gpu serverless per avviare più GPU A10 per il training distribuito.