100 TeraBytes 容量數據庫 - 資源和時間估計
我正在為 100TB 報告數據庫設置進行“封底”計算。我在這裡尋求專家的想法。建議環境:
- 儲存容量 ~ 100TB
- 表 ~ 200 個,大小從 1GB 到 5TB。平均大小可能介於 100GB-200GB 之間
- ETL - 作業可能需要在數百萬行的數十個表之間進行連接,連接鍵的範圍從 10 字節到 500 字節。此類連接應在 2-5 分鐘內完成
- Live Selects - 最初只對選擇速度感興趣。應該支持 500 次選擇/秒。更新/秒將是相對較小的數字,並且可以在此練習中忽略。
- 需要 24x7 的可用性。2 個獨立的數據庫伺服器應該可用於服務選擇呼叫(複製數據)。
問題:
- 目前,我在看Oracle。您對大型數據庫的其他商業(或)開源解決方案的體驗如何?
- 您認為哪種硬體作業系統效果最好?我正在計劃在戴爾上安裝 Linux。
- 網路儲存,例如 NetApp,是必須的嗎?您預見到使用商用現成磁碟會出現哪些問題?
- 一旦硬體和作業系統準備就緒,您將留出多少時間來設置、配置數據庫、儲存等。
- 在您觀察到的環境中,哪些團隊組合最有效?我的意思是,管理和操作此類設置所需的各種管理員(作業系統管理員、Oracle DB 管理員?)。實現 24x7 的正常執行時間可能需要多少個。
- 數據庫許可證、網路儲存成本的任何近似值/範圍。
我知道我沒有所有的環境細節。我不是在尋找確切的細節,一個近似值就足夠了。雖然有些問題可能最好由經理回答,但我對管理員的觀點很感興趣。感謝您的意見。
第一印象
- 根據您的性能要求,100TB 是一個相當激進的數據量。如果您想要 Oracle,您應該查看他們的 Exadata 系統。此外,請查看 Netezza 或 Teradata 提供的產品。有了這麼多選擇,您可能希望查看基於 OLAP 的前端,或者至少相當積極地使用物化視圖和查詢重寫。您不會從任何東西中獲得 500 次表掃描/秒。
對於延遲要求不那麼嚴格的東西,您可能需要考慮使用更多的數據集市來為您的使用者社區提供報告能力。在這種情況下,SQL Server 和 SSAS 可能是數據集市的一個選項,因為在大量伺服器上獲得許可會比在 Oracle 上做同樣的事情要便宜。 2. 見(1)。共享磁碟架構上的傳統硬體在這種大小的數據集上可能會很慢。 3. **不!**如果有人建議 NFS 給他們一個很好的踢。直接連接儲存或具有大量中檔控制器的多控制器 SAN。考慮一下可能有幾十個 MD3000 系列控制器或類似的東西 - 如果您不使用專門建構的“大數據”平台。 4. 找一位在 PB 範圍數據倉庫平台方面有經驗的儲存專家。如果您必須滿足嚴格的 SLA,您可能需要從事重要的 ETL 開發工作,以及大量的測試工作。 5. 在最好的情況下,24x7 數據倉庫是雄心勃勃的。這是一個運營報告平台嗎?也許您可能會詳細說明您的要求。 6. 括約肌非常昂貴,並且取決於您的性能要求。上次我看到(幾年前)Netezza 曾經引用 $ 20,000/TB for TwinFin systems, making your platform $ 100TB 需要 2m 加上冗餘伺服器和備份硬體的成本。我相信 Exadata 會便宜一些,但我手頭沒有任何定價。
查看 Netezza、Exadata 和 Teradata 平台進行比較,以及將 Ab Initio 作為 ETL 工具的成本計算。
這是一組相當激進的要求——數據倉庫上的 24x7 通常不會完成,並且數據量大到足以讓您進入“大數據”平台的領域。如果您有運營報告要求,那麼您應該仔細查看它是什麼。將其與您的分析分開,除非您有特定原因(例如低延遲市場數據饋送)不這樣做。在同一個平台上混合操作和分析需求是不好的。
我認為您確實需要聘請專家來評估您的要求。如果不仔細研究您要實現的目標,我所能提供的只是一些關於該做什麼或不該做什麼的經驗性建議。