對於可靠的基於人口統計的患者匹配，推薦的最低匹配標準是什麼？

May 2, 2012

在根據人口統計數據匹配患者時，是否有關於應匹配哪些欄位以使患者成為“同一患者”的建議？
我知道算法對於不同的實現會有所不同，我只是好奇是否有圍繞這個過程的任何最佳實踐或建議。
First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip
等等？

Pablo Pazos是來自烏拉圭的一名 CS 工程師，他自 2006 年以來一直從事醫療保健 IT 領域的工作，並為該領域做出了一些巨大貢獻，他在其中描述了一種用於執行此操作的算法。
您可以通過翻譯器執行這篇文章，但其要點是確定一個人身份的基本資訊是他們的名字和姓氏（來自父親和母親）、性別和出生日期。有趣的是，他專門從他的身份匹配算法中排除了像 SSN 這樣的身份號碼，因為“任何類型的標識符都不是他身份的一部分”（不過我想這一點可能值得商榷）。此外，他排除了街道地址、電話號碼等屬性，因為它們與某人的身份並沒有真正的關係，它們與“某人實際上是誰”無關。
此外，他為之前的每個屬性分配了不同的“權重”，如下所示：
名字：17.5%
中間名：17.5%
姓氏（父親）：17.5%
姓氏（母親）：17.5%
性別：10%
出生日期：20%
通過在這些屬性中的每一個上找到匹配，他描述了一種獲得複合“一致性匹配指數”的方法，通過該指數可以在記錄之間進行比較。此外，通過使用Levenshtein 的 distance等算法，可以對名稱屬性進行“部分”匹配。
好讀，海事組織。對不起，它是西班牙語，但我希望我能夠傳達它的主要思想。

引用自：https://dba.stackexchange.com/questions/17328

對於可靠的基於人口統計的患者匹配，推薦的最低匹配標準是什麼？

相關問答

向表中添加新的 BIGSERIAL 列時，可以指定生成值的順序嗎？

SET IDENTITY_INSERT 的權限是否低於 db_ddladmin？

pg_restore 失敗並在標識列上刪除預設值

如何修復序列中的所有重複鍵值？

由於繼承而產生的主鍵

為什麼一個 SQL Server 表不能有多個 IDENTITY 列？