Datentransformationen werden für Folgendes verwendet:
- Vorbereiten von Daten für Modellschulungen.
- Anwenden eines importierten Modells im TensorFlow- oder ONNX-Format.
- Daten nachverarbeiten, nachdem sie durch ein Modell übergeben wurden.
Die Transformationen in diesem Handbuch geben Klassen zurück, die die IEstimator-Schnittstelle implementieren. Datentransformationen können miteinander verkettet werden. Jede Transformation erwartet und erzeugt Daten bestimmter Typen und Formate, die in der verknüpften Referenzdokumentation angegeben werden.
Einige Datentransformationen erfordern Trainingsdaten, um ihre Parameter zu berechnen. Beispiel: Der NormalizeMeanVariance-Transformator berechnet den Mittelwert und die Varianz der Trainingsdaten während des Fit()-Vorgangs und verwendet diese Parameter im Transform()-Vorgang.
Andere Datentransformationen erfordern keine Trainingsdaten. Beispiel: Die ConvertToGrayscale-Transformation kann die Transform()-Operation durchführen, ohne während der Fit()-Operation Trainingsdaten gesehen zu haben.
Zuordnung und Gruppierung von Spalten
| Umwandeln |
Definition |
Exportierbares ONNX |
| Concatenate |
Verkette eine oder mehrere Eingabespalten zu einer neuen Ausgabespalte. |
Ja |
| CopyColumns |
Kopieren und Umbenennen einer oder mehrerer Eingabespalten |
Ja |
| DropColumns |
Löschen einer oder mehrerer Eingabespalten |
Ja |
| SelectColumns |
Auswählen einer oder mehrerer beizubehaltender Spalten aus den Eingabedaten |
Ja |
Normalisierung und Skalierung
| Transformieren |
Definition |
Exportierbares ONNX |
| NormalizeMeanVariance |
Subtrahieren des Mittelwerts (der Trainingsdaten) und Dividieren durch die Varianz (der Trainingsdaten) |
Ja |
| NormalizeLogMeanVariance |
Normalisieren auf Basis des Logarithmus der Trainingsdaten |
Ja |
| NormalizeLpNorm |
Skalieren von Eingabevektoren durch ihre LP-Norm, wobei P gleich 1, 2 oder unendlich ist. Wird standardmäßig die l2-Norm (euklidischer Abstand) verwendet |
Ja |
| NormalizeGlobalContrast |
Skalieren Sie jeden Wert in einer Zeile, indem Sie den Mittelwert der Zeilendaten subtrahieren und dann entweder durch die Standardabweichung oder die L2-Norm (der Zeilendaten) dividieren und schließlich mit einem konfigurierbaren Skalierungsfaktor (Standard: 2) multiplizieren. |
Ja |
| NormalizeBinning |
Weisen Sie den Eingabewert einem Binindex zu und dividieren Sie durch die Anzahl der Bins, um einen Gleitkommawert zwischen 0 und 1 zu erzeugen. Die Bingrenzen werden berechnet, um die Trainingsdaten gleichmäßig auf Bins zu verteilen |
Ja |
| NormalizeSupervisedBinning |
Weise den Eingabewert einem Bin zu, basierend auf seiner Korrelation mit der Etikettspalte |
Ja |
| NormalizeMinMax |
Skalieren der Eingabe um den Unterschied zwischen den minimalen und maximalen Werten in den Trainingsdaten |
Ja |
| NormalizeRobustScaling |
Skalieren Sie jeden Wert mithilfe von Statistiken, die robust gegenüber Ausreißern sind und die Daten um 0 zentrieren sowie entsprechend der Quantilspanne skalieren. |
Ja |
Konvertierungen zwischen Datentypen
| Umwandeln |
Definition |
Exportierbar in ONNX |
| ConvertType |
Konvertieren des Typs einer Eingabespalte in einen neuen Typ |
Ja |
| MapValue |
Zuordnen von Werten zu Schlüsseln (Kategorien) auf Grundlage des angegebenen Zuordnungenwörterbuchs |
Nein |
| MapValueToKey |
Zuordnen von Werten zu Schlüsseln (Kategorien) durch Erstellen der Zuordnung aus den Eingabedaten |
Ja |
| MapKeyToValue |
Schlüssel zurück in ihre ursprünglichen Werte konvertieren |
Ja |
| MapKeyToVector |
Konvertieren von Schlüsseln zurück in Vektoren ursprünglicher Werte |
Ja |
| MapKeyToBinaryVector |
Konvertieren von Schlüsseln zurück in einen binären Vektor ursprünglicher Werte |
Nein |
| Hash |
Den Wert in der Eingabespalte hashen |
Ja |
Texttransformationen
| Umwandeln |
Definition |
ONNX-kompatibel exportierbar |
| FeaturizeText |
Umwandeln einer Textspalte in ein Float-Array der normalisierten Anzahl von n-Grammen und Zeichengrammen |
Nein |
| TokenizeIntoWords |
Aufteilen einer oder mehrerer Textspalten in einzelne Wörter |
Ja |
| TokenizeIntoCharactersAsKeys |
Textspalten in einzelne Zeichen aufteilen, die sich über eine Reihe von Themen erstrecken |
Ja |
| NormalizeText |
Ändern von Groß-/Kleinschreibung, Entfernen von diakritischen Zeichen, Satzzeichen und Zahlen |
Ja |
| ProduceNgrams |
Umwandeln einer Textspalte in eine Sammlung mit der Anzahl der N-Gramme (Abfolgen aufeinander folgender Wörter) |
Ja |
| ProduceWordBags |
Umwandeln einer Textspalte in einen Vektor der Sammlung mit der Anzahl der N-Gramme |
Ja |
| ProduceHashedNgrams |
Umwandeln einer Textspalte in einen Vektor der gehashten Ngramm-Zählungen |
Nein |
| ProduceHashedWordBags |
Umwandlung einer Textspalte in einen Beutel von gehashten NGram-Anzahlen |
Ja |
| RemoveDefaultStopWords |
Entfernen der Standardstoppwörter für die angegebene Sprache aus Eingabespalten |
Ja |
| RemoveStopWords |
Entfernt die angegebenen Stoppwörter aus Eingabespalten |
Ja |
| LatentDirichletAllocation |
Umwandeln eines Dokuments (dargestellt als Vektor von Gleitkommazahlen) in einen Vektor von Gleitkommazahlen über eine Reihe von Themen |
Ja |
| ApplyWordEmbedding |
Konvertiert Vektoren von Texttoken in Satzvektoren mithilfe eines vortrainierten Modells |
Ja |
| Umwandeln |
Definition |
Exportierbares ONNX |
| ConvertToGrayscale |
Konvertieren eines Bilds in Graustufen |
Nein |
| ConvertToImage |
Konvertieren eines Vektors von Pixeln in ImageDataViewType |
Nein |
| ExtractPixels |
Konvertieren von Pixeln eines Eingabebilds in einen Vektor aus Zahlen |
Nein |
| LoadImages |
Laden von Bildern aus einem Ordner in den Arbeitsspeicher |
Nein |
| LoadRawImageBytes |
Lädt Bilder von Rohbytes in eine neue Spalte. |
Nein |
| ResizeImages |
Ändern der Größe von Bildern |
Nein |
| DnnFeaturizeImage |
Wendet ein vortrainiertes Deep Neural Network (DNN)-Modell an, um ein Eingabebild in einen Merkmalsvektor zu verwandeln. |
Nein |
| Transformieren |
Definition |
Exportierbares ONNX |
| OneHotEncoding |
Konvertieren einer oder mehrerer Textspalten in Vektoren mit 1-aus-n-Code-Codierung |
Ja |
| OneHotHashEncoding |
Konvertieren Sie eine oder mehrere Textspalten in hash-basierte one-hot-codierte Vektoren |
Nein |
| Transformieren |
Definition |
Exportierbares ONNX |
| DetectAnomalyBySrCnn |
Erkennen von Anomalien in den Eingabe-Zeitreihendaten mit dem SR-Algorithmus (Spectral Residual Algorithm) |
Nein |
| DetectChangePointBySsa |
Erkennen von Änderungspunkten in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) |
Nein |
| DetectIidChangePoint |
Erkennen von Änderungspunkten in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen |
Nein |
| ForecastBySsa |
Vorhersagen von Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) |
Nein |
| DetectSpikeBySsa |
Erkennen von Spitzen in Zeitreihendaten mithilfe von SSA (Singular Spectrum Analysis) |
Nein |
| DetectIidSpike |
Erkennen von Spitzen in unabhängigen und identisch verteilten Zeitreihendaten (IID) mithilfe adaptiver Kerneldichteschätzungen und Martingalbewertungen |
Nein |
| DetectEntireAnomalyBySrCnn |
Erkennen von Anomalien für die gesamten Eingabedaten mithilfe des SRCNN-Algorithmus |
Nein |
| DetectSeasonality |
Erkennen der Saisonabhängigkeit mithilfe einer Fourieranalyse |
Nein |
| LocalizeRootCause |
Lokalisieren der Ursache aus der Zeitreiheneingabe mithilfe eines Entscheidungsstrukturalgorithmus |
Nein |
| LocalizeRootCauses |
Lokalisiert die Ursachen aus der Zeiteingabereihe. |
Nein |
Fehlende Werte
| Transformieren |
Definition |
Exportierbares ONNX |
| IndicateMissingValues |
Erstellen einer neuen booleschen Ausgabespalte, deren Wert „true“ ist, wenn der Wert in der Eingabespalte fehlt |
Ja |
| ReplaceMissingValues |
Erstellen Sie eine neue Ausgabespalte, der Wert wird auf einen Standardwert gesetzt, wenn der Wert in der Eingabespalte fehlt, und andernfalls auf den Eingabewert. |
Ja |
Featureauswahl
| Transformieren |
Definition |
ONNX exportierbar |
| ApproximatedKernelMap |
Zuordnen jedes Eingabevektors zu einem Merkmalsraum einer niedrigeren Dimension, wobei die inneren Produkte einer Kernelfunktion nahe kommen, damit die Merkmale als Eingaben für die linearen Algorithmen verwendet werden können |
Nein |
| ProjectToPrincipalComponents |
Verringern der Dimensionen des Eingabemerkmalsvektors durch Anwenden des Algorithmus für die Hauptkomponentenanalyse |
|
| Umwandeln |
Definition |
Exportierbares ONNX |
| CalculateFeatureContribution |
Berechnen Sie den Beitragsscore für jedes Element eines Merkmalsvektors |
Nein |
| Transformieren |
Definition |
Exportierbares ONNX |
| Platt(String, String, String) |
Transformation der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit mittels logistischer Regression mit Parametern, die anhand der Trainingsdaten geschätzt wurden. |
Ja |
| Platt(Double, Double, String) |
Transformieren der Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit unter Verwendung der logistischen Regression mit festen Parametern |
Ja |
| Naive |
Wandelt den Rohwert eines binären Klassifizierers in eine Klassenwahrscheinlichkeit um, indem er Werte in Binsen einteilt und die Wahrscheinlichkeit basierend auf der Verteilung zwischen den Binsen berechnet. |
Ja |
| Isotonic |
Transformiert die Rohbewertung eines binären Klassifizierers in eine Klassenwahrscheinlichkeit, indem Bewertungen auf Bins verteilt werden, wobei die Position der Grenzen und die Größe der Bins anhand der Trainingsdaten geschätzt werden. |
Nein |
| Transformieren |
Definition |
Exportierbares ONNX |
| ApplyOnnxModel |
Transformieren der Eingabedaten mit einem importierten ONNX-Modell |
Nein |
| LoadTensorFlowModel |
Transformieren der Eingabedaten mit einem importierten TensorFlow-Modell |
Nein |
| Transformieren |
Definition |
Exportierbares ONNX |
| FilterByCustomPredicate |
Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt |
Nein |
| FilterByStatefulCustomPredicate |
Löschen von Zeilen, in denen ein angegebenes Prädikat „true“ zurückgibt, aber einen angegebenen Zustand zulässt |
Nein |
| CustomMapping |
Vorhandene Spalten in neue mit einer benutzerdefinierten Zuordnung transformieren |
Nein |
| Expression |
Anwenden eines Ausdrucks zum Transformieren von Spalten in neue Spalten |
Nein |