Snowsight でのデータ品質チェックのモニタリング

Snowsight ページを使用して、テーブルやビューのデータ品質をモニタリングできます。オブジェクトに関連付けられているデータメトリック関数(DMFs)のインタラクティブなビューを表示します。これには、DMFs の結果に関するインサイトも含まれます。

データ品質と DMFs についての理解を深めるには、データ品質とデータメトリック関数の紹介 をご参照ください。

始めましょう

オブジェクトのデータ品質に対する洞察を得るには、以下を実行します。

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで、Catalog » Database Explorer を選択してから、オブジェクトを選択します。

  3. Data Quality タブを選択します。

  4. Monitoring を選択します。

  5. 次のいずれかを実行します。

    • これまで DMFs を関連付けていなかった場合は、Set up を選択し、スケジュールの設定、カスタム DMFsの作成、DMFとオブジェクトとの関連付けを開始するのに役立つ入力済みのワークシートを開きます。

    • すでにオブジェクトに関連付けられている DMFs がある場合は、さっそく探索を開始してください。 適切な アクセス制御権限 がある場合、DMF のみを見ることができます。

どのDMFs が実行中であるかを理解する

オブジェクトに関連付けられた DMFs は Quality Dimensions の下にリストされます。

DMFs は次のようにグループ化されます。

  • システム DMFs は カテゴリ に基づいてグループ化されます。たとえば、NULL_COUNT および BLANK_COUNTDMFs は Accuracy カテゴリにグループ化されます。システム DMF が1つしかない場合(たとえば、Volume カテゴリ内の ROW_COUNTDMF)、DMF の名前は省略されます。

  • オブジェクトに関連付けられたすべての カスタム DMFs は、Custom の下にグループ化されます。

DMF ごとに、DMF とオブジェクトの関連付けにはすべて行があります。列の引数が異なる限り、同じ DMF は同じオブジェクトに複数回関連付けることができることに注意してください。複数の行がある場合は、特定の列行を選択すると、DMF とその列を引数とした実行結果が表示されます。

たとえば、NULL_COUNT DMF は次の SQL ステートメントを使用してテーブル t1 に関連付けられたと仮定します。

ALTER TABLE t1 ADD DATA METRIC FUNCTION SNOWFLAKE.CORE.NULL_COUNT ON (c1); 
Copy

c1 を含む行は、この DMF の実行結果を表示します。

Run Schedule ウィジェットは、DMFs が実行する頻度を指定します。これは、オブジェクトの DATA_METRIC_SCHEDULE パラメーターに設定された値に対応します。詳細については、 DMF 実行スケジュール をご参照ください。

失敗した品質チェックを調査する

データ品質チェックは*期待値*がある DMF の関連付けで構成されます。期待値を使用すると、データが DMF によって実行されるデータ品質チェックに合格する基準を定義できます。DMF が値を返すと、その値は期待値の基準と比較され、データがチェックに合格するか、不合格かを決定します。期待値を使用してデータ品質チェックを設定する方法の詳細については、期待値を使用してデータ品質チェックを実装する をご参照ください。

以下のプロセスを使用して、失敗した品質チェックを調査することができます。

ステップ1:品質チェックに失敗しましたか?

オブジェクトに関連付けられたすべての DMFs に対する品質チェックの失敗数 は、Monitoring ページの上部に表示されます。

ステップ2:品質チェックに失敗した DMF カテゴリはどれですか?

Checks by dimension ウィジェットを使用して、Monitoring ページに対する DMFs の各グループのステータスを確認します。赤は、グループ内で少なくとも1つの DMF が品質チェックに失敗したことを示します。

ステップ3:品質チェックに失敗した DMF の関連付けはどれですか?

カテゴリ内に少なくとも1つの失敗した品質チェックがある場合、カテゴリのウィジェットを展開し、Quality Checks 列をスキャンして、すべてのチェックが合格したわけではない行を見つけます。

ステップ4:品質チェックとは何ですか?

調査中の品質チェックをよりよく理解するには:

  1. データ品質チェックに失敗した DMF の関連付けを選択します。サイドパネルが開きます。

  2. Quality Checks セクションで Status 列を確認し、どの品質チェックに失敗したかを判断します。これは、違反した 期待値 に対応します。

  3. 品質チェックが失敗するたびに、Expression 列を使用して、品質チェックが DMF に返されると期待した値を判断します。これは、期待の式 に対応します。

ステップ5:どのアセットが品質問題の影響を受けますか?

サイドパネルが開いた状態で Impacted Assets セクションを見つけ、他のオブジェクトが品質問題の影響を受ける可能性を判断できるようにします。オブジェクトのリストの解釈については、Impacted Assets セクション をご参照ください。

ステップ6:品質チェックに違反している記録はどれですか?(システム DMFs のみを選択
  1. サイドパネルが開いた状態で、View Failed Records を選択します。

  2. 事前入力されたクエリを実行し、品質チェックに不合格となった記録を確認します。このクエリは SYSTEM$DATA_METRIC_SCAN 関数を呼び出します。

    SYSTEM$DATA_METRIC_SCAN 関数を使用したデータ品質問題の修復については、SYSTEM$DATA_METRIC_SCAN を使ってデータを修正する をご参照ください。

DMF の結果にドリルダウンする

Quality Dimensions の下の各行 は、DMF の最新の結果と7日間の結果の傾向を表示します。これらの結果をドリルダウンするには、行を選択してサイドパネルを開きます。以下は、このサイドパネルの要素について説明しています。

View Lineage ボタン

DMF を選択して、DMF に関連付けられたオブジェクトの 系列 を表示します。

View failed records ボタン(システム DMFs のみを選択

DMF が0より大きい値を返した場合、どの記録に品質問題があるとしてフラグが立てられたかを判断できます。たとえば、NULL_COUNT DMF が``5`` を返した場合、どの5つの記録に NULL 値が含まれているかを判断できます。

View failed records を選択することで、SYSTEM$DATA_METRIC_SCAN 関数を呼び出すクエリが事前に入力されたワークシートが開きます。このクエリを実行して、DMF の結果に含まれる記録を返します。

SYSTEM$DATA_METRIC_SCAN 関数の使用に関する詳細については、データ品質問題の修復 をご参照ください。

Arguments セクション(複数の引数 DMFs のみ)

カスタム DMF がは引数として複数の列を取る場合、これらの列はリストされています。列を選択すると、列を含むオブジェクトの Columns タブにナビゲートできます。

Quality Checks セクション

DMF と オブジェクトの間の関連付けに追加された 期待値 をリストします。各期待値はデータ品質チェックを実装します。このセクションには、次の列が含まれます。

  • Name --- 予想される名前。

  • Expression --- 期待値の式。詳細については、 期待値を満たすものを定義する をご参照ください。

  • Status --- 期待値が前回の DMF の実行に違反したかどうかを示します。

Impacted Assets セクション

DMF が関連付けられているオブジェクトの系列の 下流 であるオブジェクトを表示します。データ品質に問題がある場合は、影響を受ける可能性のあるその他のオブジェクトを判断できます。セクションの内容は、DMF が単一の引数(システム DMFs など)を受け入れるか、または複数の引数を受け入れるかに依存します。

  • DMF は引数として1つの列を受け入れ、Snowflakeは下流のオブジェクトにその列のデータが含まれているかどうかを確認します。たとえば、NULL_COUNT DMF はテーブル t1name 列にある NULL の値を識別すると仮定します。t1 から構築された下流のビューは、name 列からのデータが含まれる場合に、影響を受けるアセットのリストのみ表示されます。

  • DMF が複数の列を受け入れる場合、列のデータが下流オブジェクトに存在しなくても、すべての下流オブジェクトが表示されます。

Run History セクション

時間の経過とともに DMF の結果をグラフィカルに表示すると、トレンドを判断できるようになります。