指定した区切り文字 delim が出現する回数 count の前までの文字列 str の部分文字列を返します。 count が正の場合は、最後の区切り記号の左側 (左からカウント) がすべて返されます。 count が負の値の場合は、最後の区切り記号の右側 (右側からカウント) が返されます。 substring_indexでは、デリムを検索するときに大文字と小文字が区別される一致が実行されます。
対応する Databricks SQL 関数については、 substring_index 関数を参照してください。
構文
from pyspark.databricks.sql import functions as dbf
dbf.substring_index(str=<str>, delim=<delim>, count=<count>)
パラメーター
| パラメーター | タイプ | Description |
|---|---|---|
str |
pyspark.sql.Column または str |
使用するターゲット列。 |
delim |
literal string |
値の区切り記号。 |
count |
int |
出現回数。 |
返品ポリシー
pyspark.sql.Column: 指定された値の部分文字列。
例示
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('a.b.c.d',)], ['s'])
df.select('*', dbf.substring_index(df.s, '.', 2)).show()
df.select('*', dbf.substring_index('s', '.', -3)).show()