2 項演算子を初期状態と配列内のすべての要素に適用し、これを 1 つの状態に減らします。 最終状態は、finish 関数を適用して最終的な結果に変換されます。 Spark Connect をサポートします。
対応する Databricks SQL 関数については、 aggregate 関数を参照してください。
構文
from pyspark.databricks.sql import functions as dbf
dbf.aggregate(col=<col>, initialValue=<initialValue>, merge=<merge>, finish=<finish>)
パラメーター
| パラメーター | タイプ | Description |
|---|---|---|
col |
pyspark.sql.Column または str |
列または式の名前。 |
initialValue |
pyspark.sql.Column または str |
初期値。 列または式の名前。 |
merge |
function |
initialValue と同じ型の式を返すバイナリ関数。 |
finish |
function任意 |
累積値の変換に使用する省略可能な単項関数。 |
返品ポリシー
pyspark.sql.Column: 集計関数が適用された後の最終的な値。
例示
例 1: 合計を使用した単純な集計
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1, [20.0, 4.0, 2.0, 6.0, 10.0])], ("id", "values"))
df.select(dbf.aggregate("values", dbf.lit(0.0), lambda acc, x: acc + x).alias("sum")).show()
+----+
| sum|
+----+
|42.0|
+----+
例 2: Finish 関数を使用した集計
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1, [20.0, 4.0, 2.0, 6.0, 10.0])], ("id", "values"))
def merge(acc, x):
count = acc.count + 1
sum = acc.sum + x
return dbf.struct(count.alias("count"), sum.alias("sum"))
df.select(
dbf.aggregate(
"values",
dbf.struct(dbf.lit(0).alias("count"), dbf.lit(0.0).alias("sum")),
merge,
lambda acc: acc.sum / acc.count,
).alias("mean")
).show()
+----+
|mean|
+----+
| 8.4|
+----+