Freigeben über


Datentransformationen

Datentransformationen werden für Folgendes verwendet:

  • Vorbereiten von Daten für Modellschulungen.
  • Anwenden eines importierten Modells im TensorFlow- oder ONNX-Format.
  • Daten nachverarbeiten, nachdem sie durch ein Modell übergeben wurden.

Die Transformationen in diesem Handbuch geben Klassen zurück, die die IEstimator-Schnittstelle implementieren. Datentransformationen können miteinander verkettet werden. Jede Transformation erwartet und erzeugt Daten bestimmter Typen und Formate, die in der verknüpften Referenzdokumentation angegeben werden.

Einige Datentransformationen erfordern Trainingsdaten, um ihre Parameter zu berechnen. Beispiel: Der NormalizeMeanVariance-Transformator berechnet den Mittelwert und die Varianz der Trainingsdaten während des Fit()-Vorgangs und verwendet diese Parameter im Transform()-Vorgang.

Andere Datentransformationen erfordern keine Trainingsdaten. Beispiel: Die ConvertToGrayscale-Transformation kann die Transform()-Operation durchführen, ohne während der Fit()-Operation Trainingsdaten gesehen zu haben.

Zuordnung und Gruppierung von Spalten

Umwandeln Definition Exportierbares ONNX
Concatenate Verkette eine oder mehrere Eingabespalten zu einer neuen Ausgabespalte. Ja
CopyColumns Kopieren und Umbenennen einer oder mehrerer Eingabespalten Ja
DropColumns Löschen einer oder mehrerer Eingabespalten Ja
SelectColumns Auswählen einer oder mehrerer beizubehaltender Spalten aus den Eingabedaten Ja

Normalisierung und Skalierung

Transformieren Definition Exportierbares ONNX
NormalizeMeanVariance Subtrahieren des Mittelwerts (der Trainingsdaten) und Dividieren durch die Varianz (der Trainingsdaten) Ja
NormalizeLogMeanVariance Normalisieren auf Basis des Logarithmus der Trainingsdaten Ja
NormalizeLpNorm Skalieren von Eingabevektoren durch ihre LP-Norm, wobei P gleich 1, 2 oder unendlich ist. Wird standardmäßig die l2-Norm (euklidischer Abstand) verwendet Ja
NormalizeGlobalContrast Skalieren Sie jeden Wert in einer Zeile, indem Sie den Mittelwert der Zeilendaten subtrahieren und dann entweder durch die Standardabweichung oder die L2-Norm (der Zeilendaten) dividieren und schließlich mit einem konfigurierbaren Skalierungsfaktor (Standard: 2) multiplizieren. Ja
NormalizeBinning Weisen Sie den Eingabewert einem Binindex zu und dividieren Sie durch die Anzahl der Bins, um einen Gleitkommawert zwischen 0 und 1 zu erzeugen. Die Bingrenzen werden berechnet, um die Trainingsdaten gleichmäßig auf Bins zu verteilen Ja
NormalizeSupervisedBinning Weise den Eingabewert einem Bin zu, basierend auf seiner Korrelation mit der Etikettspalte Ja
NormalizeMinMax Skalieren der Eingabe um den Unterschied zwischen den minimalen und maximalen Werten in den Trainingsdaten Ja
NormalizeRobustScaling Skalieren Sie jeden Wert mithilfe von Statistiken, die robust gegenüber Ausreißern sind und die Daten um 0 zentrieren sowie entsprechend der Quantilspanne skalieren. Ja

Konvertierungen zwischen Datentypen

Umwandeln Definition Exportierbar in ONNX
ConvertType Konvertieren des Typs einer Eingabespalte in einen neuen Typ Ja
MapValue Zuordnen von Werten zu Schlüsseln (Kategorien) auf Grundlage des angegebenen Zuordnungenwörterbuchs Nein
MapValueToKey Zuordnen von Werten zu Schlüsseln (Kategorien) durch Erstellen der Zuordnung aus den Eingabedaten Ja
MapKeyToValue Schlüssel zurück in ihre ursprünglichen Werte konvertieren Ja
MapKeyToVector Konvertieren von Schlüsseln zurück in Vektoren ursprünglicher Werte Ja
MapKeyToBinaryVector Konvertieren von Schlüsseln zurück in einen binären Vektor ursprünglicher Werte Nein
Hash Den Wert in der Eingabespalte hashen Ja

Texttransformationen

Umwandeln Definition ONNX-kompatibel exportierbar
FeaturizeText Umwandeln einer Textspalte in ein Float-Array der normalisierten Anzahl von n-Grammen und Zeichengrammen Nein
TokenizeIntoWords Aufteilen einer oder mehrerer Textspalten in einzelne Wörter Ja
TokenizeIntoCharactersAsKeys Textspalten in einzelne Zeichen aufteilen, die sich über eine Reihe von Themen erstrecken Ja
NormalizeText Ändern von Groß-/Kleinschreibung, Entfernen von diakritischen Zeichen, Satzzeichen und Zahlen Ja
ProduceNgrams Umwandeln einer Textspalte in eine Sammlung mit der Anzahl der N-Gramme (Abfolgen aufeinander folgender Wörter) Ja
ProduceWordBags Umwandeln einer Textspalte in einen Vektor der Sammlung mit der Anzahl der N-Gramme Ja
ProduceHashedNgrams Umwandeln einer Textspalte in einen Vektor der gehashten Ngramm-Zählungen Nein
ProduceHashedWordBags Umwandlung einer Textspalte in einen Beutel von gehashten NGram-Anzahlen Ja
RemoveDefaultStopWords Entfernen der Standardstoppwörter für die angegebene Sprache aus Eingabespalten Ja
RemoveStopWords Entfernt die angegebenen Stoppwörter aus Eingabespalten Ja
LatentDirichletAllocation Umwandeln eines Dokuments (dargestellt als Vektor von Gleitkommazahlen) in einen Vektor von Gleitkommazahlen über eine Reihe von Themen Ja
ApplyWordEmbedding Konvertiert Vektoren von Texttoken in Satzvektoren mithilfe eines vortrainierten Modells Ja

Bildtransformationen

Umwandeln Definition Exportierbares ONNX
ConvertToGrayscale Konvertieren eines Bilds in Graustufen Nein
ConvertToImage Konvertieren eines Vektors von Pixeln in ImageDataViewType Nein
ExtractPixels Konvertieren von Pixeln eines Eingabebilds in einen Vektor aus Zahlen Nein
LoadImages Laden von Bildern aus einem Ordner in den Arbeitsspeicher Nein
LoadRawImageBytes Lädt Bilder von Rohbytes in eine neue Spalte. Nein
ResizeImages Ändern der Größe von Bildern Nein
DnnFeaturizeImage Wendet ein vortrainiertes Deep Neural Network (DNN)-Modell an, um ein Eingabebild in einen Merkmalsvektor zu verwandeln. Nein

Kategorische Datentransformationen

Transformieren Definition Exportierbares ONNX
OneHotEncoding Konvertieren einer oder mehrerer Textspalten in Vektoren mit 1-aus-n-Code-Codierung Ja
OneHotHashEncoding Konvertieren Sie eine oder mehrere Textspalten in hash-basierte one-hot-codierte Vektoren Nein

Zeitreihendaten-Transformationen

Transformieren Definition Exportierbares ONNX
DetectAnomalyBySrCnn Erkennen von Anomalien in den Eingabe-Zeitreihendaten mit dem SR-Algorithmus (Spectral Residual Algorithm) Nein
DetectChangePointBySsa Erkennen von Änderungspunkten in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) Nein
DetectIidChangePoint Erkennen von Änderungspunkten in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen Nein
ForecastBySsa Vorhersagen von Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) Nein
DetectSpikeBySsa Erkennen von Spitzen in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) Nein
DetectIidSpike Erkennen von Spitzen in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen Nein
DetectEntireAnomalyBySrCnn Erkennen von Anomalien für die gesamten Eingabedaten mithilfe des SRCNN-Algorithmus Nein
DetectSeasonality Erkennen der Saisonabhängigkeit mithilfe einer Fourieranalyse Nein
LocalizeRootCause Lokalisieren der Ursache aus der Zeitreiheneingabe mithilfe eines Entscheidungsstrukturalgorithmus Nein
LocalizeRootCauses Lokalisiert die Ursachen aus der Zeiteingabereihe. Nein

Fehlende Werte

Transformieren Definition Exportierbares ONNX
IndicateMissingValues Erstellen einer neuen booleschen Ausgabespalte, deren Wert „true“ ist, wenn der Wert in der Eingabespalte fehlt Ja
ReplaceMissingValues Erstellen Sie eine neue Ausgabespalte, der Wert wird auf einen Standardwert gesetzt, wenn der Wert in der Eingabespalte fehlt, und andernfalls auf den Eingabewert. Ja

Featureauswahl

Umwandeln Definition ONNX exportierbar
SelectFeaturesBasedOnCount Auswählen von Features, deren nicht standardmäßige Werte größer als der Schwellenwert sind Ja
SelectFeaturesBasedOnMutualInformation Wählen Sie die Features aus, von denen die Daten in der Bezeichnungsspalte am meisten abhängen Ja

Merkmalstransformationen

Transformieren Definition ONNX exportierbar
ApproximatedKernelMap Zuordnen jedes Eingabevektors zu einem Merkmalsraum einer niedrigeren Dimension, wobei die inneren Produkte einer Kernelfunktion nahe kommen, damit die Merkmale als Eingaben für die linearen Algorithmen verwendet werden können Nein
ProjectToPrincipalComponents Verringern der Dimensionen des Eingabemerkmalsvektors durch Anwenden des Algorithmus für die Hauptkomponentenanalyse

Erklärbarkeitstransformationen

Umwandeln Definition Exportierbares ONNX
CalculateFeatureContribution Berechnen Sie den Beitragsscore für jedes Element eines Merkmalsvektors Nein

Kalibrierungstransformationen

Transformieren Definition Exportierbares ONNX
Platt(String, String, String) Transformation der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit mittels logistischer Regression mit Parametern, die anhand der Trainingsdaten geschätzt wurden. Ja
Platt(Double, Double, String) Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit unter Verwendung der logistischen Regression mit festen Parametern Ja
Naive Wandelt den Rohwert eines binären Klassifizierers in eine Klassenwahrscheinlichkeit um, indem er Werte in Binsen einteilt und die Wahrscheinlichkeit basierend auf der Verteilung zwischen den Binsen berechnet. Ja
Isotonic Transformiert die Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit, indem Bewertungen auf Bins verteilt werden, wobei die Position der Grenzen und die Größe der Bins anhand der Trainingsdaten geschätzt werden. Nein

Deep Learning-Transformationen

Transformieren Definition Exportierbares ONNX
ApplyOnnxModel Transformieren der Eingabedaten mit einem importierten ONNX-Modell Nein
LoadTensorFlowModel Transformieren der Eingabedaten mit einem importierten TensorFlow-Modell Nein

Benutzerdefinierte Transformationen

Transformieren Definition Exportierbares ONNX
FilterByCustomPredicate Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt Nein
FilterByStatefulCustomPredicate Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt, aber einen angegebenen Zustand zulässt Nein
CustomMapping Vorhandene Spalten in neue mit einer benutzerdefinierten Zuordnung transformieren Nein
Expression Anwenden eines Ausdrucks zum Transformieren von Spalten in neue Spalten Nein