什麼是數據虛擬化?
我剛剛被問到我們公司是否應該考慮
Data Virtualization
我們的測試環境。好處如下:
- 篩選敏感數據
- 在我們的測試環境中快速刷新數據
- DR 和 BI 場景的潛在好處
但是我只找到了行銷資訊;沒什麼技術。據我所知,有兩種方法:
- 生產數據庫上的服務層,它將您從數據模型中抽像出來(可能會導致該新層呈現不同的數據模型)。
- 一種自動化數據恢復和後續操作的工具,可供非技術使用者使用,並且比使用數據庫備份和 SQL 腳本更快。
在沒有看到任何技術資訊的情況下,我聞到了蛇油的味道;但我想理解它,而不是一發不可收拾。
關鍵詞:
$$ data-as-a-service $$ $$ data-virtualisation $$ $$ data-virtualization $$ $$ delphix $$ $$ denodo $$
數據虛擬化是提供一個抽象層,因此數據消費者不必知道原始數據的物理位置或格式。您可能有一個 PostGres 數據庫、一個 MySQL 數據庫、一個 SQL Server 數據庫、一整批 Parquet/ORC 文件,而編寫查詢的人完全不知道這種物理性。就他們而言,他們正在與 Presto(或您選擇使用的任何數據虛擬化解決方案)建立連接。
Apache Presto 等技術允許在一個中心點上執行 SQL 查詢,但 Presto 本身被配置為知道源數據的位置和內容,最終使用者不需要知道。Presto 是一個開源工具,從 Teradata 獲得了很多意見,特別是在 JDBC 連接性、安全性和 LDAP 身份驗證方面。它還得到了 StarBurst 的商業支持。Starburst 最近宣布了一個基於成本的 Presto 查詢優化器。
AWS 對 Presto 充滿信心,因為他們將 AWS Athena 建立在它之上。它的美妙之處在於數據不必駐留在關係數據庫中。它也可以是基於文件的。
在篩選敏感數據方面,您可以選擇誰可以訪問什麼,但它不是數據屏蔽或混淆工具。
它不是蛇油,但也不是靈丹妙藥。源系統顯然受到了打擊,您必須了解該打擊是什麼。主要好處是您不必在各處移動數據,並且擁有大量技術來支持數據移動。