Cassandra

Cassandra 集群監控

  • February 5, 2016

我們使用 Nagios 來監控我們的伺服器。

每個 Web 環境都有 1 個集群作為後端 - Cassanra 2.0。每個集群有 3-5 個節點。

問題是:我想為 Nagios 寫一個外掛,用於 Cassandra 的節點監控。不幸的是 - 我對 Cassandra 不太熟悉,並且不確定 - 需要檢查哪些參數?

我計劃使用 Nodetool 實用程序從節點中獲取數據 - 但它有很多命令,每個命令都提供大量資訊(例如 - cfstatsinfostatus)。

所以 - 為了監控我需要獲取一些關於每個節點的記憶體使用情況的數據,使用的磁碟空間,可能是 - 別的什麼?

  1. 您可以使用檢查每個節點的 Java 堆記憶體。像 Total Java Heap Memory 和 Using Java Heap Memory。
  2. 最重要的是每個節點的 CPU 使用率。
  3. 設置錯誤警報。system.log 有很多關於的資訊。
  4. 您可以為數據盤和日誌盤設置警報。
  5. 伺服器的心跳檢查,例如如果您在幾分鐘內沒有收到,它會向您發出警報。
  6. 還刪除了突變並暗示了後退明確的警報。

基本上你需要開始觀察 system.log 並且會得到越來越多的監控錯誤。

引用自:https://dba.stackexchange.com/questions/107597