次の方法で共有


レイクハウスのチュートリアル: レイクハウスにデータを取り込む

このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。 パイプラインを使用すると、データ ワークフローをスケジュールするオプションを使用して、大規模なデータを取り込むことができます。

前提条件

データを取り込む

このセクションでは、Data Factory パイプラインのデータのコピー アクティビティを使用して、Azure ストレージ アカウントから前のチュートリアルで作成した lakehouseFiles セクションにサンプル データを取り込みます。

  1. 前のチュートリアルで作成したワークスペースで、[ 新しい項目] を選択します。

  2. 検索バーで パイプライン を検索し、[ パイプライン ] タイルを選択します。

  3. [新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。

  4. 新しいパイプラインの [ホーム ] タブで、[ パイプライン アクティビティ>Copy データ] を選択します。

    [パイプライン アクティビティ] と [データのコピー] を選択する場所を示すスクリーンショット。

  5. キャンバスから新しい データのコピー アクティビティを選択します。 アクティビティのプロパティは、キャンバスの下のペインに表示され、[全般]、[ソース]、[宛先]、[マッピング]、[設定] などのタブに分かれています。 場合によっては、上端をドラッグしてペインを上方向に展開する必要があります。

  6. [全般] タブの [名前] フィールドに「Lakehouse へのデータ コピー」と入力します。 他のフィールドは既定値のままにします。

    [全般] タブでコピー アクティビティ名を追加する場所を示すスクリーンショット。

  7. [ ソース ] タブで、[ 接続 ] ドロップダウンを選択し、[ すべて参照] を選択します。

  8. データ ソースの選択 ページで、Azure Blob を検索して選択します。

  9. [データ ソースの接続] ページで、次の詳細を入力します。 次に、[ 接続 ] を選択してデータ ソースへの接続を作成します。 このチュートリアルでは、すべてのサンプル データを Azure BLOB ストレージのパブリック コンテナーで使用できます。 このコンテナーに接続して、そこからデータをコピーします。

    プロパティ 価値
    アカウント名または URL https://fabrictutorialdata.blob.core.windows.net/sampledata/
    接続 新しい接続を作成する
    接続名 wwisampledata
    認証の種類 匿名

    BLOB ストレージ接続を選択する場所を示すスクリーンショット。

  10. [ ソース ] タブでは、新しく作成された接続が既定で選択されています。 移動先の設定に移動する前に、次のプロパティを指定します。

    プロパティ 価値
    接続 wwisampledata
    ファイル パスの種類 ファイルパス
    ファイルパス コンテナー名 (最初のテキスト ボックス): sampledata
    ディレクトリ名 (2 番目のテキスト ボックス): WideWorldImportersDW/parquet
    再帰的に 確認済み
    ファイル形式 Binary

    Blob Storage の接続設定を示すスクリーンショット。

  11. [ 変換先 ] タブで、次のプロパティを指定します。

    プロパティ 価値
    接続 wwilakehouse (別の名前を付けた場合は、レイクハウスを選択してください)
    ルート フォルダー Files
    ファイルパス ディレクトリ名 (最初のテキスト ボックス): wwi-raw-data
    ファイル形式 Binary

    特定の詳細を入力する場所を示す宛先タブのスクリーンショット。

  12. データのコピー アクティビティを構成しました。 上部のリボン (ホームの下) の [保存] アイコンを選択して変更を保存し、[ 実行 ] を選択してパイプラインとそのアクティビティを実行します。 また、ビジネス要件を満たすために、定義された間隔でデータを更新するようにパイプラインをスケジュールすることもできます。 このチュートリアルでは、[実行] を選択してパイプラインを 1 回だけ 実行します。

  13. このアクションにより、基になるデータ ソースから指定した lakehouse へのデータ コピーがトリガーされ、完了するまでに最大 1 分かかる場合があります。 パイプラインとそのアクティビティの実行は、[ 出力 ] タブで監視できます。アクティビティの状態が Queued>In progress>Succeeded から変わります

    [保存してパイプラインを実行する] を選択する場所を示すスクリーンショット。

    ヒント

    [実行の詳細の表示] を選択して、実行の詳細を表示します。

  14. コピー アクティビティが成功したら、レイクハウス (wwilakehouse) を開いてデータを表示します。 [ ファイル ] セクションを更新して、取り込まれたデータを確認します。 ファイル セクションに新しいフォルダー wwi-raw-data が表示され、Azure BLOB テーブルのデータがそこにコピーされます。

    コピー先のレイクハウスにコピーされた BLOB データを示すスクリーンショット

増分データを Lakehouse に読み込むには、 データ ウェアハウスから Lakehouse へのデータの増分読み込みを参照してください。

次のステップ