Replication

什麼是數據虛擬化?

  • May 24, 2020

我剛剛被問到我們公司是否應該考慮Data Virtualization我們的測試環境。好處如下:

  • 篩選敏感數據
  • 在我們的測試環境中快速刷新數據
  • DR 和 BI 場景的潛在好處

但是我只找到了行銷資訊;沒什麼技術。據我所知,有兩種方法:

  • 生產數據庫上的服務層,它將您從數據模型中抽像出來(可能會導致該新層呈現不同的數據模型)。
  • 一種自動化數據恢復和後續操作的工具,可供非技術使用者使用,並且比使用數據庫備份和 SQL 腳本更快。

在沒有看到任何技術資訊的情況下,我聞到了蛇油的味道;但我想理解它,而不是一發不可收拾。


關鍵詞:

$$ data-as-a-service $$ $$ data-virtualisation $$ $$ data-virtualization $$ $$ delphix $$ $$ denodo $$

數據虛擬化是提供一個抽象層,因此數據消費者不必知道原始數據的物理位置或格式。您可能有一個 PostGres 數據庫、一個 MySQL 數據庫、一個 SQL Server 數據庫、一整批 Parquet/ORC 文件,而編寫查詢的人完全不知道這種物理性。就他們而言,他們正在與 Presto(或您選擇使用的任何數據虛擬化解決方案)建立連接。

Apache Presto 等技術允許在一個中心點上執行 SQL 查詢,但 Presto 本身被配置為知道源數據的位置和內容,最終使用者不需要知道。Presto 是一個開源工具,從 Teradata 獲得了很多意見,特別是在 JDBC 連接性、安全性和 LDAP 身份驗證方面。它還得到了 StarBurst 的商業支持。Starburst 最近宣布了一個基於成本的 Presto 查詢優化器。

AWS 對 Presto 充滿信心,因為他們將 AWS Athena 建立在它之上。它的美妙之處在於數據不必駐留在關係數據庫中。它也可以是基於文件的。

在篩選敏感數據方面,您可以選擇誰可以訪問什麼,但它不是數據屏蔽或混淆工具。

它不是蛇油,但也不是靈丹妙藥。源系統顯然受到了打擊,您必須了解該打擊是什麼。主要好處是您不必在各處移動數據,並且擁有大量技術來支持數據移動。

引用自:https://dba.stackexchange.com/questions/130199