次の方法で共有


histogram_numeric

nb bin を使用して数値 'col' のヒストグラムを計算します。戻り値は、ヒストグラムのビンの中心を表す (x,y) ペアの配列です。'nb' の値が増加すると、ヒストグラムの近似値は細かく設定されますが、外れ値に関するアーティファクトが生成される可能性があります。 実際には、20 から 40 個のヒストグラム ビンが適切に機能しているように見え、傾斜したデータセットや小さなデータセットに必要なビンが増えます。 この関数は、均一でないビン幅を持つヒストグラムを作成します。 ヒストグラムの平均二乗誤差の点では保証されませんが、実際には R/S-Plus 統計コンピューティング パッケージによって生成されるヒストグラムに相当します。 注: 戻り値の 'x' フィールドの出力タイプは、集計関数で使用される入力値から伝達されます。

構文

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

パラメーター

パラメーター タイプ Description
col pyspark.sql.Column または str 作業対象の列。
nBins pyspark.sql.Column ヒストグラム列の数。

返品ポリシー

pyspark.sql.Column: nb ビンを使用した数値 'col' のヒストグラム。

例示

例 1: 5 つのビンでヒストグラムを計算する

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+