Freigeben über


Spickzettel zur Datenvorbereitung

Hohe BI-Leistung hängt davon ab, wie effektiv Daten aus dem Lakehouse vorbereitet und geliefert werden. Durch die Übernahme von Architekturmustern, das Anwenden einer semantischen Struktur und die Verwendung gezielter Optimierungen können Sie die Abfragekomplexität reduzieren, die Reaktionsfähigkeit des Dashboards verbessern und die Berechnungskosten senken.

In der folgenden Tabelle sind die empfohlenen Methoden, deren erwartete Auswirkung, zugehörige Dokumentation und zugehörige Aktionselemente zusammengefasst. Dieser Inhalt richtet sich an Datentechniker, BI-Entwickler und Dashboardautoren, die Analyseworkloads im Lakehouse entwerfen, optimieren und verwalten.

Datenvorbereitung

Beste Praxis Auswirkung Docs Aktionselemente
Übernahme einer Medaillon-Architektur Beschleunigt die Umwandlung von Rohdaten in einsatzbereite, zuverlässige Datenprodukte für den einfachen Verbrauch. Überprüfen und Implementieren von Medallion-Ebenen
Verwenden von Liquid Clustering Verbessert die Abfrageleistung beim Überspringen von Dateien und Daten. Anwenden auf große Tabellen mit Filtermustern
Verwenden von verwalteten Tabellen Azure Databricks steuert und optimiert die Speicherebene und die Abfrageleistung. Erstellen verwalteter Tabellen für Ihre Daten
Verwenden sie eine predictive Optimierung oder optimieren Sie Tabellen manuell. Ermöglicht eine bessere Abfrageleistung, indem Dateigrößen und Layout optimiert, alte Dateien gelöscht und Statistiken aktualisiert werden. Aktivieren für Produktionstabellen oder das Planen von regelmäßiger Optimierung und Analyse von Tabellen nach Datenänderungen
Modelldaten in einem Sternschemamuster Erleichtert das Abfragen und Nutzen der Daten. Entwurfs-Fakten- und Dimensionstabellen
Vermeiden Sie breite Datentypen und Spalten mit hoher Kardinalität Optimiert die Größe und den Arbeitsspeicherverbrauch des Datenmodells und verbessert die Abfrageeffizienz. Überprüfung von Datentypen und Kardinalität
Deklarieren von Primär- und Fremdschlüsseln (mit RELY) Optimiert Abfragen, indem unnötige Verknüpfungen und Aggregationen eliminiert werden. Definieren von Schlüsseln für Fakten- und Dimensionstabellen
Verwenden automatisch generierter Spalten Reduziert die Notwendigkeit, Werte zur Abfragezeit zu berechnen. Identifizieren häufig berechneter Felder
Verwenden von materialisierten Ansichten und beibehaltenen Tabellen Verbessert die Leistung, indem Daten für die am häufigsten verwendeten und ressourcenintensiven Abfragen vorab aggregiert werden. Erstellen aggregierter Ansichten für allgemeine Abfragen