1 回答

TA貢獻(xiàn)1829條經(jīng)驗 獲得超9個贊
嗯,這是一個復(fù)雜的話題,因此不可能有一個明確的答案。
實際上,您所接近的在生產(chǎn)設(shè)置中被稱為“指標(biāo)收集”或“遙測”。
在大多數(shù)情況下,指標(biāo)的收集使用采樣方法:即收集感興趣的系統(tǒng)狀態(tài)的快照并將其發(fā)送到某處?!澳程帯蓖ǔJ且恍┫到y(tǒng),它允許將指標(biāo)的值保存在某處,并且通常還提供各種分析它們的方法。
在最簡單的情況下,分析是通過在某種 UI 中查看從收集的數(shù)據(jù)中繪制的圖表來完成的。更復(fù)雜的情況包括當(dāng)某些指標(biāo)的值高于(或低于)某個閾值時發(fā)出警報。
單個指標(biāo)是特定類型的一些命名值。
指標(biāo)可以從不同的數(shù)據(jù)源產(chǎn)生。用 Go 編寫的程序運行的相當(dāng)常見的設(shè)置的典型來源包括:
Go 運行時本身。
這包括諸如 goroutine 的數(shù)量和垃圾收集統(tǒng)計數(shù)據(jù)之類的東西——由于顯而易見的原因,這些測量結(jié)果不可能在運行的 Go 程序之外獲得。
操作系統(tǒng)提供的有關(guān)執(zhí)行程序的運行進(jìn)程的測量值。
這包括在內(nèi)核的用戶和系統(tǒng)上下文中花費的 CPU 時間、操作系統(tǒng)所看到的內(nèi)存消耗、打開的文件(和套接字)描述符的數(shù)量、CPU 上下文切換的數(shù)量、磁盤 I/O 統(tǒng)計信息等等。
由運行包含程序的容器的容器化軟件提供的測量結(jié)果。
在 Linux 上,這通常由子系統(tǒng)提供
cgroup
,該子系統(tǒng)主要負(fù)責(zé)控制對進(jìn)程層次結(jié)構(gòu)施加的資源限制。
如何準(zhǔn)確地從這些數(shù)據(jù)源轉(zhuǎn)換數(shù)據(jù)是一個懸而未決的問題(這就是為什么它不適合 SO 格式)。
例如,要收集 Go 運行時統(tǒng)計信息,您可以使用expvar
@Adrian 建議的機制,并定期輪詢其提供的 HTTP 端點以獲取數(shù)據(jù)。
或者,您可以在程序中運行一個內(nèi)部 goroutine,它定期從運行時獲取這些數(shù)據(jù)并將其推送到某個地方。
同樣,操作系統(tǒng)級進(jìn)程相關(guān)數(shù)據(jù)的采樣可以通過不同的方式完成。比如說,您可以使用類似的方法從您的程序中收集它們,github.com/shirou/gopsutil/process
并將它們與從運行時統(tǒng)計數(shù)據(jù)收集的指標(biāo)一起推送,或者您可以使用一種或多種工具從外部收集這些數(shù)據(jù)。
(據(jù)我所知,收集操作系統(tǒng)級性能數(shù)據(jù)的技術(shù)含量最低但最容易訪問的方法是使用pidstat
、iotop
、等工具)。atop
cpustat
保留和分析收集到的數(shù)據(jù)的問題再次是開放的。
首先,它可能很簡單,只需將所有內(nèi)容轉(zhuǎn)儲到結(jié)構(gòu)化文件中(每條記錄上可能帶有時間戳),然后使用您喜歡的任何內(nèi)容進(jìn)行處理(例如,RRD 工具或 R 或......等等)pyplot
。
或者,您可以從一開始就拿起一把大槍,將您的指標(biāo)發(fā)送到 Graphite、Graphana、Zabbix、icinga 或當(dāng)前位于其臀部曲線頂部的任何內(nèi)容。
- 1 回答
- 0 關(guān)注
- 150 瀏覽
添加回答
舉報