Optimization
什麼是分析數個 1000 或 Mio 的最佳數據庫分析公司。產品,將它們加在一起並分析它們以進行統計?
我們將在我們的數據庫中獲得數千種產品。問題是一種產品可以有多個不同的名稱,例如“iPad 16GByte UMTS schwarz”或“iPad 16GB 3G black”等等。但它們是同一種產品。我們希望將它們組合在一起進行精確分析(例如在特定時間段內哪個城市有多少產品)。最好的方法是什麼?這方面最好的專家是什麼?
我不確定如何使用像 mongodb 這樣的 nosql 數據庫來執行此操作,但在典型的數據倉庫中,我會使用維度表層次結構來執行此操作。
Product_ID Full_Product_Nm Product_Lvl1 Product_Lvl2 ---------- --------------- -------------- ------------ 1 iPad 16GByte UMTS schwarz iPad iPad 16gb 2 iPad 16GB 3G black iPad iPad 16gb 3 iPad 64GByte UMTS schwarz iPad iPad 64gb 4 iPad 64GB 3G black iPad iPad 64gb
然後我可以將我的事實表加入維度並提取我想要報告的層次結構級別。
因此,在您的範例中,我可以取出 Product_Lvl1 來獲取 iPad,但如果我想比較 64gb 與 16gb iPad 的銷售/庫存,我可以使用 Product_Lvl2 來做到這一點。
聽起來需要清理這些數據並將其載入到多維數據集中。SQL Server Integration Services 有一些非常非常擅長這種數據清理的方法,而 SQL Server Analysis Services 非常適合這種數據聚合。您可以從 Microsoft 網站 ( www.microsoft.com/sql ) 下載免費試用版。