このページでは、Spark 用 Python API である PySpark で使用できるリファレンスの概要について説明します。 PySpark の詳細については、 Azure Databricks の PySpark に関するページを参照してください。
| リファレンス | Description |
|---|---|
| コア クラス | SparkSession や DataFrame の基礎など、PySpark SQL を操作するための主なクラス。 |
| Spark セッション | PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。 |
| Configuration | Spark SQL のランタイム構成オプション (実行とオプティマイザーの設定を含む)。 Databricks でのみ使用できる構成の詳細については、「 Azure Databricks での Spark 構成プロパティの設定」を参照してください。 |
| DataFrame | リレーショナル データベース内のテーブルと同様に、名前付き列に編成されたデータの分散コレクション。 |
| [入力または出力] | さまざまなファイル形式とデータ ソースからデータを読み取り、データを書き込むためのメソッド。 |
| コラム | 変換や式など、DataFrame 列を操作するための操作。 |
| データ型 | PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。 |
| 行 | 個々のフィールド値へのアクセスを提供する DataFrame 内のデータ行を表します。 |
| 関数 | データ操作、変換、集計操作用の組み込み関数。 |
| ウィンドウ | 現在の行に関連する一連のテーブル行にわたって計算を実行するためのウィンドウ関数。 |
| グルーピング | データをグループ化し、グループ化された DataFrame に対して集計操作を実行するためのメソッド。 |
| カタログ | データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。 |
| Avro | Apache Avro 形式でのデータの読み取りと書き込みのサポート。 |
| 観測 | メトリックを収集し、監視とデバッグのためにクエリの実行中に DataFrames を監視します。 |
| UDF | カスタム Python ロジックを DataFrame 列に適用するためのユーザー定義関数。 |
| UDTF | 入力行ごとに複数の行を返すユーザー定義テーブル関数。 |
| VariantVal | 動的な型と入れ子構造をサポートする柔軟なスキーマで半構造化データを処理します。 |
| ProtoBuf | プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。 |
| Python DataSource | 外部システムから読み取るカスタム データ ソースを実装するための API。 カスタム データ ソースの詳細については、「 PySpark カスタム データ ソース」を参照してください。 |
| ステートフル プロセッサ | 構造化ストリーミングでの複雑なステートフル操作のストリーミング バッチ間の状態を管理します。 |