Condividi tramite


theta_difference

Restituisce la differenza di set di due rappresentazioni binarie degli oggetti Theta Sketch (elementi nel primo schizzo ma non nel secondo), utilizzando un oggetto Datasketches ANotB.

Sintassi

from pyspark.sql import functions as sf

sf.theta_difference(col1, col2)

Parametri

Parametro TIPO Description
col1 pyspark.sql.Column o str Primo schizzo di Theta.
col2 pyspark.sql.Column o str Secondo schizzo di Theta.

Restituzioni

pyspark.sql.Column: rappresentazione binaria della differenza Theta Sketch.

Esempi

Esempio 1: Ottenere la differenza di due schizzi Theta

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
    sf.theta_sketch_agg("v1").alias("sketch1"),
    sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
|                                                        3|
+---------------------------------------------------------+