Database-Agnostic

如何建立統計數據庫?

  • September 30, 2016

根據我正在閱讀的書,統計數據庫是一個允許查詢獲取聚合資訊但不允許查詢獲取個人資訊的數據庫。目前,是否可以建立一個統計數據庫?如何?可以使用 SQL 創建嗎?

什麼是統計數據庫?

在較高的層次上,它只是一種只儲存統計數據的數據庫。一個例子是人口普查數據庫。通常,純 SDB 的訪問控制很簡單:某些使用者被授權訪問整個數據庫。

這是關於數據而不是引擎

請記住,這與數據有關,而不是您選擇的關係數據庫管理系統的類型,例如 MySQL、SQL Server、Oracle 等。如果您將統計數據(例如人口普查資訊)儲存在所述數據庫中,則任何數據庫都可以是統計數據庫等等。

統計數據庫的典型結構

話雖如此,大多數統計數據庫都是線上分析處理(OLAP),其特點是交易量相對較低。查詢通常非常複雜並且涉及聚合(例如:派生的聚合資訊而不是派生的個人資訊)。

OLAP 與 OLTP

可以使用 SQL 創建統計數據庫嗎

是的。如果數據是提供統計性質的數據(例如計數和平均值)的數據,並且訪問數據庫的使用者正在從所述數據庫而不是個人查詢聚合或統計數據,則可以使用任何數據庫引擎來創建統計數據庫統計數據最終基於的使用者記錄。

由於大多數流行的數據庫引擎都使用一種 SQL 形式從底層系統獲取數據,因此問題的答案是“是”。

為什麼要限制個人資訊?

這在很大程度上取決於使用統計數據庫滿足其需求的企業或組織。通常,出於隱私原因,個人記錄、統計數據所依據的內容受到限制。例如,根據當地醫院的病歷進行醫療統計。

因此,安全是統計數據庫的一個大問題,以幫助禁止使用者從使用聚合統計資訊中探勘個人資訊。

個人記錄如何被統計數據破壞的範例

個人記錄基礎數據庫的統計使用者僅限於從數據庫中獲取匯總或統計數據,並且禁止訪問個人記錄。這種情況下的推理問題是使用者可能會推斷出有關 SDB 中表示的各個實體的機密資訊。這樣的推論稱為妥協。如果使用者推斷出與單個實體關聯的屬性的值,則折衷是肯定的,如果使用者推斷出屬性的特定值與單個實體不關聯,則折衷是否定的。例如,如果使用者知道 Baker 是唯一的女性 EE 學生,則統計總和 (EE·Female, GP) = 2.5 會危及數據庫。

希望有幫助!

引用自:https://dba.stackexchange.com/questions/122368