Database-Design
跨不同數據庫引用的重複記錄
我有一個包含“人員”數據(大約 70K 記錄)的表,該表與“地址”表共存,因此
AddressID
“人員”表中的每個人都有一個。想法是將數據集中在這個單一的“人口”數據庫中,一旦由於執行不善的導入過程(數據來自不同來源)而開始出現重複記錄,問題就開始了,這使得表格中的記錄多達 7 條單身人士。
此外,地址表開始收集“各種”,假設我住在“ 24 Wickam Heights ”,您可以通過以下方式找到該地址:
- 24 威卡姆
- 威卡姆街 24 號
- 威卡姆街 24 號
- 24 惠卡姆 H.
- 威卡姆大街 24 號
在某些情況下,就像同一條街道的 20 多個不同版本一樣糟糕……
最美妙的部分是來自該數據庫的數據被同一伺服器中的至少 5 個其他數據庫引用,這使得每次更改都是一個非常危險的過程。
所以我在想,可以採取哪些步驟來消除重複項?,有什麼替代方法可以避免地址表累積如此多的數據不一致?
甚至可能要問,這麼大的爛攤子還有救嗎?這真的是一場噩夢。
市面上有一些很棒的數據清理產品,特別是一款實際上是一流且價格合理的產品。我遇到了Data Ladder的 DataMatch ,它是一個出色的模糊匹配和跨業務使用的地址標準化/地址解析工具,非常適合這種情況。他們為新使用者提供免費試用。
事實上,對軟體進行了獨立驗證評估,並將其與 IBM 和 SAS 的主要軟體工具進行了比較。澳大利亞科廷大學數據連結中心進行了一項研究,模擬了 440 萬條記錄的匹配。它確定了提供商在準確性方面的準確性(找到的匹配數與可用的匹配數。錯誤匹配的數量)
1. DataMatch Enterprise, Highest Accuracy (>95%), Very Fast, Low Cost 2. IBM Quality Stage , high accuracy (>90%), Very Fast, High Cost (>$100K) 3. SAS Data Flux, Medium Accuracy (>85%), Fast, High Cost (>100K)