Redshift

儲存、查詢和更新 3 億行數據的最佳方式

  • April 16, 2015

我正在努力尋找一個解決方案(最好是 DBaaS),我可以依靠它來儲存和查詢大約 3 億行數據(大約 100 GB)。

有問題的數據幾乎是數字的。還有一個“描述”列,我想對其執行全文搜尋。還有幾個“類別”列用於過濾。我還想以多種方式過濾/排序搜尋結果(10 多個不同的索引)。

由於數據幾乎是非規範化的,因此無需進行複雜的連接。數據被大量更新:每天大約有 5000 萬條記錄被替換。

我第一次嘗試使用 DynamoDB,但它最多只能支持 5 個索引,並且無法以合理的速度進行全文搜尋。我也考慮過Google的 BigQuery,但它是為“僅附加”數據而設計的。我現在正在考慮 Redshift,但我不確定它如何能夠處理如此大量的每日更新。

任何意見,將不勝感激!

我最終將數據儲存在 DynamoDB 中,並與 Redshift 進行日常同步。我已經在 4 節點集群上嘗試了使用 600M 樣本數據的 Redshift,它執行得非常快。這正是我所需要的。

引用自:https://dba.stackexchange.com/questions/68121