Cassandra
Cassandra 集群監控
我們使用 Nagios 來監控我們的伺服器。
每個 Web 環境都有 1 個集群作為後端 - Cassanra 2.0。每個集群有 3-5 個節點。
問題是:我想為 Nagios 寫一個外掛,用於 Cassandra 的節點監控。不幸的是 - 我對 Cassandra 不太熟悉,並且不確定 - 需要檢查哪些參數?
我計劃使用 Nodetool 實用程序從節點中獲取數據 - 但它有很多命令,每個命令都提供大量資訊(例如 -
cfstats
、info
等status
)。所以 - 為了監控我需要獲取一些關於每個節點的記憶體使用情況的數據,使用的磁碟空間,可能是 - 別的什麼?
- 您可以使用檢查每個節點的 Java 堆記憶體。像 Total Java Heap Memory 和 Using Java Heap Memory。
- 最重要的是每個節點的 CPU 使用率。
- 設置錯誤警報。system.log 有很多關於的資訊。
- 您可以為數據盤和日誌盤設置警報。
- 伺服器的心跳檢查,例如如果您在幾分鐘內沒有收到,它會向您發出警報。
- 還刪除了突變並暗示了後退明確的警報。
基本上你需要開始觀察 system.log 並且會得到越來越多的監控錯誤。