histogram_numeric

nb bin を使用して数値 'col' のヒストグラムを計算します。戻り値は、ヒストグラムのビンの中心を表す (x,y) ペアの配列です。'nb' の値が増加すると、ヒストグラムの近似値は細かく設定されますが、外れ値に関するアーティファクトが生成される可能性があります。実際には、20 から 40 個のヒストグラムビンが適切に機能しているように見え、傾斜したデータセットや小さなデータセットに必要なビンが増えます。この関数は、均一でないビン幅を持つヒストグラムを作成します。ヒストグラムの平均二乗誤差の点では保証されませんが、実際には R/S-Plus 統計コンピューティングパッケージによって生成されるヒストグラムに相当します。注: 戻り値の 'x' フィールドの出力タイプは、集計関数で使用される入力値から伝達されます。

構文

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

パラメーター

パラメーター	タイプ	Description
`col`	`pyspark.sql.Column` または str	作業対象の列。
`nBins`	`pyspark.sql.Column`	ヒストグラム列の数。

返品ポリシー

pyspark.sql.Column: nb ビンを使用した数値 'col' のヒストグラム。

例示

例 1: 5 つのビンでヒストグラムを計算する

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)

+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-02-01

次の方法で共有

histogram_numeric

構文

パラメーター

返品ポリシー

例示

フィードバック

その他のリソース