PySpark のリファレンス

このページでは、Spark 用 Python API である PySpark で使用できるリファレンスの概要について説明します。 PySpark の詳細については、 Azure Databricks の PySpark に関するページを参照してください。

リファレンス	Description
コアクラス	SparkSession や DataFrame の基礎など、PySpark SQL を操作するための主なクラス。
Spark セッション	PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリポイント。
Configuration	Spark SQL のランタイム構成オプション (実行とオプティマイザーの設定を含む)。 Databricks でのみ使用できる構成の詳細については、「 Azure Databricks での Spark 構成プロパティの設定」を参照してください。
DataFrame	リレーショナルデータベース内のテーブルと同様に、名前付き列に編成されたデータの分散コレクション。
[入力または出力]	さまざまなファイル形式とデータソースからデータを読み取り、データを書き込むためのメソッド。
コラム	変換や式など、DataFrame 列を操作するための操作。
データ型	PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。
行	個々のフィールド値へのアクセスを提供する DataFrame 内のデータ行を表します。
関数	データ操作、変換、集計操作用の組み込み関数。
ウィンドウ	現在の行に関連する一連のテーブル行にわたって計算を実行するためのウィンドウ関数。
グルーピング	データをグループ化し、グループ化された DataFrame に対して集計操作を実行するためのメソッド。
カタログ	データベース、テーブル、関数、およびその他のカタログメタデータを管理するためのインターフェイス。
Avro	Apache Avro 形式でのデータの読み取りと書き込みのサポート。
観測	メトリックを収集し、監視とデバッグのためにクエリの実行中に DataFrames を監視します。
UDF	カスタム Python ロジックを DataFrame 列に適用するためのユーザー定義関数。
UDTF	入力行ごとに複数の行を返すユーザー定義テーブル関数。
VariantVal	動的な型と入れ子構造をサポートする柔軟なスキーマで半構造化データを処理します。
ProtoBuf	プロトコルバッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。
Python DataSource	外部システムから読み取るカスタムデータソースを実装するための API。カスタムデータソースの詳細については、「 PySpark カスタムデータソース」を参照してください。
ステートフルプロセッサ	構造化ストリーミングでの複雑なステートフル操作のストリーミングバッチ間の状態を管理します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-01-16

次の方法で共有

PySpark のリファレンス

フィードバック

その他のリソース