次の方法で共有


データ エンジニアリング エージェントの使用

Important

この機能は パブリック プレビュー段階です

このページでは、Databricks Assistant に機能を追加する Data Engineering Agent について説明します。 データ エンジニアリング エージェントを使用するには、アシスタントで [エージェント モード] を選択します。

Data Engineering エージェントは、Lakeflow Spark 宣言パイプライン (SDP) と Lakeflow Pipelines エディター専用に設計されており、データの探索、パイプライン コードの生成と実行、エラーの修正を 1 回のプロンプトから行います。

データ エンジニアリング エージェントとは

Data Engineering Agent は、Databricks Assistant エージェント モードの強力な機能であり、アシスタントを自律パートナーに変換し、SDP と Lakeflow Pipelines Editor でマルチステップ データ エンジニアリング ワークフロー全体を自動化できます。

データ エンジニアリング エージェントを使用します。

アシスタント チャット モードと比較して、エージェント モードでは、ソリューションの計画、関連する資産の取得、コードの実行、パイプライン出力を使用した結果の改善、エラーの自動修正などの機能が拡張されています。

Data Engineering Agent は、パイプライン全体をゼロからエンドツーエンドで計画および生成したり、既存のパイプラインの作業を高速化したりできます。 エージェントは、続行する前に、お客様と協力してプランを承認し、次の手順を確認します。 Data Engineering Agent では、承認を得て、ツールを使用して、テーブルの検索、SQL または Python ソース ファイルの編集、パイプラインの更新の実行、パイプライン データセットの読み取りなどのタスクを実行できます。

データ エンジニアリング エージェントのアクセスとアクションは、ユーザーのアクセス許可によって管理されます。 アクセス権を持つデータにのみアクセスし、アクセス許可を持つ操作を実行できます。

アシスタントでエージェント モードを有効にすると、アシスタントは Databricks で現在使用している機能に基づいてその機能を調整します。 たとえば、Lakeflow Pipelines エディターでは、アシスタントはパイプラインの編集タスクとデータ エンジニアリング タスクに重点を置いています。 ノートブックと SQL エディターでは、アシスタントはデータの探索と分析をサポートします。 詳細については、「 データ サイエンス エージェント 」を参照してください。

Requirements

データ エンジニアリング エージェントを使用するには、ワークスペースに次のものが必要です。

データ エンジニアリング エージェントの使用

データ エンジニアリング エージェントを使用するには:

  1. Lakeflow Pipelines エディターで、[アバター アシスタント] アイコンをクリックしてアシスタントのサイド パネルを開きます。ワークスペースの右上隅にあるアシスタント

  2. 右下隅にある [エージェント] を選択 します。 これにより、アシスタントのエージェント モードが切り替わり、データ エンジニアリング エージェントと対話できるようになります。

  3. エージェントのプロンプトを入力してください。 たとえば、"このパイプラインについて説明する" など、パイプラインに関する質問をすることができます。 また、新しいデータセットを追加するように依頼することもできます。たとえば、"bronze_sales_dataから読み取ってデータをクリーンアップし、有用な品質の期待を追加する新しいファイルにsilver_sales_dataを作成する" などです。

    エージェントはユーザーの Unity カタログのアクセス許可を尊重するため、アクセス権を持つデータとパイプライン ソースにのみアクセスできます。

  4. エージェントが応答を生成すると、多くの場合、入力を取得するために一時停止します。

    • より複雑なタスクの場合、エージェントは段階的な計画を作成し、明確な質問をする場合があります。 エージェントの明確化するための質問に答えて、その計画をより良くする手助けをします。

    • エージェントは、コードを実行するかパイプラインを更新する必要がある場合、続行する前に承認を求めます。 要求を許可または拒否します。 このスレッドで [許可] (アシスタント会話スレッドを参照) または [常に許可] を選択することもできます。

      Important

      データ エンジニアリング エージェントは、パイプラインでコードを生成して実行できます。 危険な行動を防ぐためのガードレールがありますが、依然としてリスクがあります。 信頼できるデータでのみ使用し、実行する前にコードを確認する必要があります。

    • エージェントが作業を続行すると、[ 続行 ] または [拒否 ] を選択するように求められる場合があります。エージェントの既存の作業を確認し、[ 続行 ] を選択してエージェントが次の手順に進むのを許可するか 、[拒否] を選択して他の操作を試みるように指示します。

    • エージェントの動作中にエージェントを停止するには、赤い 停止アイコンをクリックします。

エージェントは、新しいファイルの作成、テキスト、クエリ、コードの生成、ファイルまたはパイプラインの実行、出力データセットへのアクセスを行って結果を解釈できます。

データ エンジニアリング エージェントが作業を続行し、次の手順を実行するには、エージェントが作業している現在のタブを維持する必要があります。

ヒント

エージェントがほとんどの応答で使用する手順を追加できます。 たとえば、使用するコード規則や、使用する推奨ライブラリがある場合は、エージェントの手順にこれらのガイドラインを追加できます。 また、ドメイン固有のタスクに特化した機能を使用してエージェントを拡張する スキル を作成することもできます。 詳細とその他のヒントについては、「 Databricks Assistant の応答をカスタマイズして改善する」を参照してください。

能力

データ エンジニアリング エージェントは、ほとんどのパイプライン開発タスクに役立ちます。 主な機能は次のとおりです。

  • データ検出: エージェントはワークスペース内のテーブルを検索して、タスクに必要なデータを見つけるのに役立ちます。
  • パイプライン コードの編集: エージェントは、一度に複数のファイルを作成および編集できます。 変更中のファイルに関する情報が保持され、各ファイルのコードの相違が表示されるので、最後に変更を個別に、またはすべてまとめて確認できます。
  • パイプラインの実行: エージェントは、個々のファイルを実行したり、パイプラインをドライラン/実行したり、完全な更新を実行したりできます。 エージェントは、続行する前に確認を求めます。
  • パイプラインの動作の理解と改善: エージェントはデータセットとパイプライン出力を検査して、パイプラインが何をエンドツーエンドで行っているかとその理由を理解するのに役立ちます。 たとえば、変換の要約、ダウンストリーム テーブルへのデータ フローの追跡、行数やスキーマの予期しない変更の強調表示などを行うことができます。 潜在的なデータ品質の問題が発生した場合、エージェントは原因を特定し、パイプライン内の場所と対処方法を提案するのに役立ちます。

これらの機能は、次のような一般的なユース ケースをサポートします。

  • 新しいパイプラインの作成: データ エンジニアリング エージェントは、データの取り込みからデータの標準化とクリーニング、データの変換と分析まで、新しい medallion アーキテクチャ パイプラインを作成するすべての手順に役立ちます。
  • パイプラインの説明: エージェントは、既存のパイプラインを分析して説明し、迅速に立ち上げるのに役立ちます。
  • 問題の修正: エラーが発生した場合、エージェントは問題の診断と修正に役立ち、問題が解決されるまで複数のファイルを反復処理できます。

例示

開始するには、次のプロンプトを試してください。

  • "my_catalog.my_schema のテーブル トランザクションと顧客を使用して不正行為を検出するための medallion アーキテクチャ パイプラインを構築して実行します。"
  • "このパイプラインのすべてのステップについて説明します。"
  • "このパイプラインのエラーを修正します。"

次のステップ