このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。 パイプラインを使用すると、データ ワークフローをスケジュールするオプションを使用して、大規模なデータを取り込むことができます。
前提条件
- Lakehouse がない場合は、Lakehouse を作成する必要があります。
データを取り込む
このセクションでは、Data Factory パイプラインのデータのコピー アクティビティを使用して、Azure ストレージ アカウントから前のチュートリアルで作成した lakehouse の Files セクションにサンプル データを取り込みます。
前のチュートリアルで作成したワークスペースで、[ 新しい項目] を選択します。
検索バーで パイプライン を検索し、[ パイプライン ] タイルを選択します。
[新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。
新しいパイプラインの [ホーム ] タブで、[ パイプライン アクティビティ>Copy データ] を選択します。
キャンバスから新しい データのコピー アクティビティを選択します。 アクティビティのプロパティは、キャンバスの下のペインに表示され、[全般]、[ソース]、[宛先]、[マッピング]、[設定] などのタブに分かれています。 場合によっては、上端をドラッグしてペインを上方向に展開する必要があります。
[全般] タブの [名前] フィールドに「Lakehouse へのデータ コピー」と入力します。 他のフィールドは既定値のままにします。
[ ソース ] タブで、[ 接続 ] ドロップダウンを選択し、[ すべて参照] を選択します。
データ ソースの選択 ページで、Azure Blob を検索して選択します。
[データ ソースの接続] ページで、次の詳細を入力します。 次に、[ 接続 ] を選択してデータ ソースへの接続を作成します。 このチュートリアルでは、すべてのサンプル データを Azure BLOB ストレージのパブリック コンテナーで使用できます。 このコンテナーに接続して、そこからデータをコピーします。
プロパティ 価値 アカウント名または URL https://fabrictutorialdata.blob.core.windows.net/sampledata/接続 新しい接続を作成する 接続名 wwisampledata 認証の種類 匿名 [ ソース ] タブでは、新しく作成された接続が既定で選択されています。 移動先の設定に移動する前に、次のプロパティを指定します。
プロパティ 価値 接続 wwisampledata ファイル パスの種類 ファイルパス ファイルパス コンテナー名 (最初のテキスト ボックス): sampledata
ディレクトリ名 (2 番目のテキスト ボックス): WideWorldImportersDW/parquet再帰的に 確認済み ファイル形式 Binary [ 変換先 ] タブで、次のプロパティを指定します。
プロパティ 価値 接続 wwilakehouse (別の名前を付けた場合は、レイクハウスを選択してください) ルート フォルダー Files ファイルパス ディレクトリ名 (最初のテキスト ボックス): wwi-raw-data ファイル形式 Binary データのコピー アクティビティを構成しました。 上部のリボン (ホームの下) の [保存] アイコンを選択して変更を保存し、[ 実行 ] を選択してパイプラインとそのアクティビティを実行します。 また、ビジネス要件を満たすために、定義された間隔でデータを更新するようにパイプラインをスケジュールすることもできます。 このチュートリアルでは、[実行] を選択してパイプラインを 1 回だけ 実行します。
このアクションにより、基になるデータ ソースから指定した lakehouse へのデータ コピーがトリガーされ、完了するまでに最大 1 分かかる場合があります。 パイプラインとそのアクティビティの実行は、[ 出力 ] タブで監視できます。アクティビティの状態が Queued>In progress>Succeeded から変わります。
ヒント
[実行の詳細の表示] を選択して、実行の詳細を表示します。
コピー アクティビティが成功したら、レイクハウス (wwilakehouse) を開いてデータを表示します。 [ ファイル ] セクションを更新して、取り込まれたデータを確認します。 ファイル セクションに新しいフォルダー wwi-raw-data が表示され、Azure BLOB テーブルのデータがそこにコピーされます。
増分データを Lakehouse に読み込むには、 データ ウェアハウスから Lakehouse へのデータの増分読み込みを参照してください。