跨不同數據庫引用的重複記錄

June 10, 2015

我有一個包含“人員”數據（大約 70K 記錄）的表，該表與“地址”表共存，因此AddressID“人員”表中的每個人都有一個。
想法是將數據集中在這個單一的“人口”數據庫中，一旦由於執行不善的導入過程（數據來自不同來源）而開始出現重複記錄，問題就開始了，這使得表格中的記錄多達 7 條單身人士。
此外，地址表開始收集“各種”，假設我住在“ 24 Wickam Heights ”，您可以通過以下方式找到該地址：
24 威卡姆
威卡姆街 24 號
威卡姆街 24 號
24 惠卡姆 H.
威卡姆大街 24 號
在某些情況下，就像同一條街道的 20 多個不同版本一樣糟糕……
最美妙的部分是來自該數據庫的數據被同一伺服器中的至少 5 個其他數據庫引用，這使得每次更改都是一個非常危險的過程。
所以我在想，可以採取哪些步驟來消除重複項？，有什麼替代方法可以避免地址表累積如此多的數據不一致？
甚至可能要問，這麼大的爛攤子還有救嗎？這真的是一場噩夢。

市面上有一些很棒的數據清理產品，特別是一款實際上是一流且價格合理的產品。我遇到了Data Ladder的 DataMatch ，它是一個出色的模糊匹配和跨業務使用的地址標準化/地址解析工具，非常適合這種情況。他們為新使用者提供免費試用。
事實上，對軟體進行了獨立驗證評估，並將其與 IBM 和 SAS 的主要軟體工具進行了比較。澳大利亞科廷大學數據連結中心進行了一項研究，模擬了 440 萬條記錄的匹配。它確定了提供商在準確性方面的準確性（找到的匹配數與可用的匹配數。錯誤匹配的數量）
1.  DataMatch Enterprise, Highest Accuracy (&gt;95%), Very Fast, Low Cost
2.  IBM Quality Stage , high accuracy (&gt;90%), Very Fast, High Cost (&gt;$100K)
3.  SAS Data Flux, Medium Accuracy (&gt;85%), Fast, High Cost (&gt;100K)

引用自：https://dba.stackexchange.com/questions/103594

跨不同數據庫引用的重複記錄

相關問答

如何設計避免重複的外鍵

如何對有時（但不總是）有小節的數據進行建模？

如何在 MySQL 中設計 Person 表？

為複合類型數組中的欄位創建索引

是否應該將頻繁更新的計數器列儲存在單獨的表中？

記錄可變數量的列？