Sql-Server

新集群測試 - 最佳實踐

  • December 14, 2012

我們已經完成了 4 節點 SQL Server 2005 集群的設置。我們使用 Windows 2008 R2 作為底層作業系統。

我們正在尋找有關我們可以執行的一組測試的建議,以測試 SQL 實例的故障轉移?

甚至沒有接近全面,但我會開始: 1. 為您的主/活動節點上的公共 IP 介面拉動乙太網電纜。確認故障轉移。2. 拉動活動節點的 SAN 光纖電纜。確認故障轉移。3. 拉動活動節點的電源線。確認故障轉移。

這些代表了 MS Clustering 將首先補償的主要故障類型……

我想當我玩這些遊戲時,我的真實/產品數據庫會被分離或離線。*

Thomas 在他對該問題的評論中提供的連結是一些測試場景的良好資源。Bob 還提供了一些很好的測試,其中許多都包含在連結的部落格文章中。

我想說,除了要檢查的“內容”列表之外,您還想查看各種應用場景來測試故障轉移。我已經看到很多集群被建構,然後從伺服器團隊/DBA 團隊方面進行測試——但應用程序團隊從未參與其中。

在故障轉移期間,您的應用程序會發生什麼情況?現在它實際上看起來更像是重新啟動應用程序(實際上這就是故障轉移。服務在節點 A 上停止。服務在節點 B 上啟動。當 SQL 關閉並重新啟動或當它崩潰並恢復時..數據庫在重新啟動的另一端進行恢復,連接都被丟棄在它們所在的位置,等等)所以測試似乎毫無意義,但看看什麼樣的過程是件好事使用者將體驗並了解應用程序所有者和幫助台人員等在發生故障轉移時需要執行哪些流程。

你應該問這樣的問題:

  1. 數據庫重新啟動後是否需要重置或重新啟動某些組件?
  2. 在維護視窗期間,您是否必須遵循非常特定的操作順序才能關閉/重新啟動 SQL Server?這可能看起來像應用程序或中間件伺服器首先關閉,然後是數據庫。在集群故障轉移中,您首先要關閉數據庫。這對您和您的公司意味著什麼?
  3. 您的第三方軟體包供應商是否支持在集群上安裝?他們應該,這並沒有太大的不同,但他們可能有在故障轉移期間要考慮的事情的指導。
  4. 您的應用程序是否會自動嘗試重新連接一定次數?如果沒有,他們可以嗎?在您的集群環境中考慮這可能是一件好事,以節省重新連接和故障轉移後恢復工作的一些時間。

當您進行其中一些測試時,讓您的應用程序執行(不是實時生產……),使用者或測試腳本在故障轉移期間執行工作。發生了什麼?看到有什麼需要注意的嗎?

引用自:https://dba.stackexchange.com/questions/21858