nb bin を使用して数値 'col' のヒストグラムを計算します。戻り値は、ヒストグラムのビンの中心を表す (x,y) ペアの配列です。'nb' の値が増加すると、ヒストグラムの近似値は細かく設定されますが、外れ値に関するアーティファクトが生成される可能性があります。 実際には、20 から 40 個のヒストグラム ビンが適切に機能しているように見え、傾斜したデータセットや小さなデータセットに必要なビンが増えます。 この関数は、均一でないビン幅を持つヒストグラムを作成します。 ヒストグラムの平均二乗誤差の点では保証されませんが、実際には R/S-Plus 統計コンピューティング パッケージによって生成されるヒストグラムに相当します。 注: 戻り値の 'x' フィールドの出力タイプは、集計関数で使用される入力値から伝達されます。
構文
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
パラメーター
| パラメーター | タイプ | Description |
|---|---|---|
col |
pyspark.sql.Column または str |
作業対象の列。 |
nBins |
pyspark.sql.Column |
ヒストグラム列の数。 |
返品ポリシー
pyspark.sql.Column: nb ビンを使用した数値 'col' のヒストグラム。
例示
例 1: 5 つのビンでヒストグラムを計算する
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+