Mysql

PMM 中的 Prometheus 高記憶體和 CPU 使用率

  • November 14, 2021

我們正在執行 PMM v1.17.0 並且 prometheus 導致巨大的 cpu 和 mem 使用(200% CPU 和 100% RAM),並且 pmm 因此下降。我們在具有 2 個 vCPU 和 7.5G RAM 的 VM 上執行 PMM,並且正在監視大約 25 台伺服器。PMM 使用以下命令執行 >>

docker run -d -it --volumes-from pmm-data --name pmm-server  -e QUERIES_RETENTION=1095   -p 80:80   -e METRICS_RESOLUTION=3s  --restart always percona/pmm-server:1

prometheus.log 包含以下條目:

level=warn ts=2020-01-30T10:27:12.8156514Z caller=scrape.go:713 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.21:42002/metrics-mr msg="append failed" err="out of order sample"
level=warn ts=2020-01-30T10:27:26.464361371Z caller=scrape.go:945 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.223:42002/metrics-mr msg="Error on ingesting samples with different value but same timestamp" num_dropped=1
level=warn ts=2020-01-30T10:27:27.81316996Z caller=scrape.go:942 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.21:42002/metrics-mr msg="Error on ingesting out-of-order samples" num_dropped=2
level=warn ts=2020-01-30T10:27:27.813257165Z caller=scrape.go:713 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.21:42002/metrics-mr msg="append failed" err="out of order sample"
level=warn ts=2020-01-30T10:27:41.462420708Z caller=scrape.go:945 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.223:42002/metrics-mr msg="Error on ingesting samples with different value but same timestamp" num_dropped=1
level=warn ts=2020-01-30T10:27:42.813356387Z caller=scrape.go:942 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.21:42002/metrics-mr msg="Error on ingesting out-of-order samples" num_dropped=2
level=warn ts=2020-01-30T10:27:42.813441108Z caller=scrape.go:713 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.21:42002/metrics-mr msg="append failed" err="out of order sample"
level=warn ts=2020-01-30T10:27:56.463798729Z caller=scrape.go:945 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.223:42002/metrics-mr msg="Error on ingesting samples with different value but same timestamp" num_dropped=1
level=warn ts=2020-01-30T10:27:57.82083775Z caller=scrape.go:942 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.21:42002/metrics-mr msg="Error on ingesting out-of-order samples" num_dropped=2
level=warn ts=2020-01-30T10:27:57.820912309Z caller=scrape.go:713 component="scrape manager" scrape_pool=mysql-mr target=https://10.40.4.21:42002/metrics-mr msg="append failed" err="out of order sample"

有人可以讓我知道為什麼普羅米修斯會引起問題嗎?我們需要添加/更改任何參數嗎?

你監控多少台伺服器?如果不是太忙,該規範的 PMM 伺服器可能可以處理 4-8 個受監控的伺服器。如果他們很忙並向 PMM 發送大量 QAN 查詢,則接近 4。它還取決於您的數據保留,如果您從預設值增加保留,您將需要向主機添加更多 RAM 和 CPU。

100% RAM——你可能正在交換,這對性能來說很糟糕。降低innodb_buffer_pool_size一點以避免交換。

200% CPU - 糟糕的索引和/或糟糕的查詢公式。請提供一些查詢和SHOW CREATE TABLE;可能有一個快速修復。

“亂序”和“不同的值”——要麼是收集機制的錯誤,要麼是 Percona 中的錯誤。

引用自:https://dba.stackexchange.com/questions/258517