Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[230516]Data Clean Room Topics #1

Open
7 of 9 tasks
Hiro-mackay opened this issue May 16, 2023 · 4 comments
Open
7 of 9 tasks

[230516]Data Clean Room Topics #1

Hiro-mackay opened this issue May 16, 2023 · 4 comments

Comments

@Hiro-mackay
Copy link
Contributor

Hiro-mackay commented May 16, 2023

Introducing BigQuery differential privacy

概要

Big Query 差分プライバシーのパブリックプレビューがリリース。
将来的には、今回の差分プライバシーソリューションをBigQuery データ クリーン ルームと統合し、プライバシーを保護しながら組織が機密データを匿名化して共有できるようにする予定。

何がGood?

Googleがリリースしているdifferential-privacyというOSSを基盤として、Google SQL for BigQuery に差分プライバシーが追加された。

BigQuery の差分プライバシーは既存のセキュリティ制御とも連携するため、次のことが可能に。

Usage

差分プライバシーを次の集計関数に適用して、結果を匿名化できる。

  • カウント
  • 平均
  • PERCENTILE_CONT
SELECT
WITH
  DIFFERENTIAL_PRIVACY
    OPTIONS (
      epsilon = 1,
      delta = 1e-7,
      privacy_unit_column = npi)
    provider_type,
PERCENTILE_CONT(
  bene_unique_cnt, 0.5, contribution_bounds_per_row => (0, 10000))
  percentile_50th,
PERCENTILE_CONT(
  bene_unique_cnt, 0.9, contribution_bounds_per_row => (0, 10000))
  percentile_90th
FROM `bigquery-public-data.cms_medicare.physicians_and_other_supplier_2015`
WHERE provider_type IS NOT NULL
GROUP BY 1
ORDER BY 2 DESC
LIMIT 10;

-- Query results may differ slightly with each run due to noise being applied
/*--------------------------------------+-----------------+-----------------*
| provider_type                        | percentile_50th | percentile_90th |
+--------------------------------------+-----------------+-----------------+
| Peripheral Vascular Disease          | 132.95          | 3134.24         |
| Ambulance Service Supplier           | 101.81          | 697.79          |
| Multispecialty Clinic/Group Practice | 75.03           | 2316.40         |
| Addiction Medicine                   | 68.38           | 3811.18         |
| Public Health Welfare Agency         | 67.27           | 597.46          |
| Neuropsychiatry                      | 63.85           | 375.88          |
| Emergency Medicine                   | 62.86           | 272.00          |
| Centralized Flu                      | 52.97           | 216.98          |
| Clinical Laboratory                  | 52.04           | 744.01          |
| Ophthalmology                        | 49.93           | 282.12          |
*--------------------------------------+-----------------+-----------------*/
@Hiro-mackay
Copy link
Contributor Author

(BigQuery)Object tables are now generally available (GA).

概要

オブジェクト テーブルは、Cloud Storage に保存されている非構造化データのメタデータを含む読み取り専用テーブルである。
BigQuery ML と BigQuery リモート関数を使用して、画像、音声ファイル、ドキュメント、その他のファイル タイプの分析推論を実行ができる。
オブジェクト テーブルは、現在構造化データに適用されているデータ セキュリティとガバナンスのベスト プラクティスを非構造化データにも拡張します。

何がGood?

BigLake テーブルと同様に、オブジェクト テーブルでもアクセス委任が使用されます。これにより、オブジェクト テーブルへのアクセスと Cloud Storage オブジェクトへのアクセスが切り離される。
サービス アカウントに関連付けられた外部接続を使用して Cloud Storage に接続するので、ユーザーにオブジェクト テーブルへのアクセス権を付与するだけでよく、行レベルのセキュリティを適用し、ユーザーがアクセスできるオブジェクトを管理可能。

Usage

他の BigQuery テーブルと同じ方法で、オブジェクト テーブルのメタデータをクエリができる。

BigQuery で非構造化データをネイティブに分析する利点

  • モデル要件に合わせて画像サイズを調整するなどの前処理手順を自動化することで、手作業を減らす
  • シンプルで使い慣れた SQL インターフェースを使用して、非構造化データを操作
  • 新しい形式のコンピューティングを提供する代わりに、既存の BigQuery スロットを利用して費用を削減

@Hiro-mackay
Copy link
Contributor Author

Hiro-mackay commented May 16, 2023

(snowflake)Logging and Tracing in Procedures and Functions — Preview

概要

イベントテーブル、ロギング、トレースのプレビューをリリース。
この機能により、プロシージャや関数のハンドラコードからログメッセージデータやトレースデータを発し、そのデータをイベントテーブルに収集させて後で分析することが可能。

何がGood?

Snowflake 関数とプロシージャ ハンドラー コード ( Snowpark API を使用して作成したコードを含む) のアクティビティを記録する には、実行時にコードからログ メッセージとトレース イベントをキャプチャする。
データを収集したら、SQL でクエリを実行して結果を分析できる。

特に、次のものを記録して分析できます。

  • コードの特定部分の状態に関する情報を含む、独立した詳細なメッセージをログに記録
  • コードの複数の部分にまたがる情報を取得し、グループ化するために使用できる構造化データを使用してイベントをトレース

@Hiro-mackay
Copy link
Contributor Author

Hiro-mackay commented May 16, 2023

(snowflake)Support for GEOMETRY Data Type — General Availability

概要

新しいGEOMETRYデータ型のサポートを一般的に提供開始。
GEOMETRYデータ型は、平面(ユークリッド、デカルト)座標系で表現。
このリリースには、GEOMETRY オブジェクト間の関係の構築、フォーマット、測定、および計算を行う関数が用意されている。

何がGood?

snowflake上で位置情報を取り扱い可能に。(とはいえプレビューはあったけど)

Usage

Snowflake での地理空間データの使用

@Hiro-mackay
Copy link
Contributor Author

Snowsight でのデータ ガバナンスの管理 —プレビュー

概要

このリリースでは、Snowsight のデータ»ガバナンスインターフェイスのプレビューをリリース
ガバナンス インターフェイスには、最も頻繁に使用されるマスキング ポリシー、行アクセス ポリシー、タグとテーブルと列での使用状況を監視するための [ダッシュボード]タブが含まれる。

Creating & Assigning Tags

Snowflake でタグを使用するための概要

  • CREATE TAGステートメントを使用してタグを作成
  • Snowsight またはALTER コマンドを使用して、既存のSnowflake オブジェクトにタグを割り当て

    タグを割り当てた後、SQL または Snowsight を使用してタグの使用状況を監視可能。

    Snowsight によるタグの監視

    ダッシュボード

    データ管理者は、ダッシュボードインターフェイスを使用して、次の方法でタグとポリシーの使用状況を監視できます。

    • カバレッジ: テーブル、ビュー、または列にポリシーまたはタグがあるかどうかに基づいて、カウントとパーセンテージを指定します。
    • 普及率: 最も頻繁に使用されるポリシーとタグをリストし、カウントします。

    カバレッジと普及率は、データがどの程度適切に保護され、タグ付けされているかに関するスナップショットを提供。

    タグ付きオブジェクト

    データ管理者は、このテーブルを使用して、ダッシュボードのカバレッジと普及率を特定のテーブル、ビュー、または列のリストにすばやく関連付けることができる。
    次のようにテーブルの結果を手動でフィルタリングすることも可能。

    • [テーブル]または[列]を選択
    • タグの場合は、タグあり、タグなし、または特定のタグでフィルタリング
    • ポリシーの場合は、ポリシーあり、ポリシーなし、または特定のポリシーによってフィルタリング

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant