Scalability

為什麼關係數據庫不能滿足大數據的規模?

  • March 2, 2012

人們經常重複說,大數據問題是關係數據庫無法擴展以處理現在正在創建的海量數據。

但是,像 Hadoop 這樣的大數據解決方案不受這些可擴展性限制的約束是什麼?為什麼 Oracle RAC 或 MySQL 分片或 MPP RDBMS 像 Teradata(等)不能實現這些壯舉?

我對技術限制很感興趣——我知道集群 RDBMS 的財務成本可能令人望而卻步。

MS 剛剛在荷蘭進行了一次技術演講,他們討論了其中的一些內容。它開始緩慢,但在 20 分鐘左右進入 Hadoop 的核心。

它的要點是“取決於”。如果您有一個合理安排、(至少在某種程度上)易於分區的數據集(至少在某種程度上)是同質的,那麼使用 RDBMS 擴展到那些高數據量應該相當容易,具體取決於您在做什麼.

Hadoop 和 MR 似乎更適合您被迫對數據進行大規模分佈式掃描的情況,尤其是當這些數據不一定像我們在 RDBMS 世界中發現的那樣同質或結構化時。

大數據解決方案不受哪些限制?對我來說,他們不受約束的最大限制是必須提前製定嚴格的模式。使用大數據解決方案,您現在可以將大量數據推入“盒子”,稍後在查詢中添加邏輯以處理數據缺乏同質性的問題。從開發人員的角度來看,權衡是項目前端的易於實施和靈活性,而不是查詢的複雜性和不太直接的數據一致性。

引用自:https://dba.stackexchange.com/questions/13931