腾讯云所有cvm通过腾讯云监控指标接入到腾讯云Grafana实例做dashboard

以CPU为例，cvm其它指标可以参考，所有指标如下：

监控项	指标名
CPU 一分钟平均负载	qce_cvm_cpuloadavg_avg
CPU 五分钟平均负载	qce_cvm_cpuloadavg5m_avg
CPU 利用率	qce_cvm_cpuusage_avg
CPU 十五分钟平均负载	qce_cvm_cpuloadavg15m_avg
基础 CPU 使用率	qce_cvm_basecpuusage_avg
内存使用量	qce_cvm_memused_avg
内存利用率	qce_cvm_memusage_avg
磁盘写流量	qce_cvm_diskwritetraffic_max
磁盘利用率	qce_cvm_cvmdiskusage_max
磁盘读流量	qce_cvm_diskreadtraffic_max
TCP 连接数	qce_cvm_tcpcurrestab_max
内网入包量	qce_cvm_laninpkg_avg
内网入带宽	qce_cvm_lanintraffic_avg
内网出包量	qce_cvm_lanoutpkg_avg
内网出带宽	qce_cvm_lanouttraffic_avg
外网入包量	qce_cvm_waninpkg_max
外网入带宽	qce_cvm_wanintraffic_max
外网出包量	qce_cvm_wanoutpkg_max
外网出带宽	qce_cvm_wanouttraffic_max
外网出带宽使用率	qce_cvm_outratio_max
外网出流量	qce_cvm_accouttraffic_sum
子机 utc 时间和 ntp 时间差值	qce_cvm_timeoffset_max
GPU 使用率	qce_cvm_gpuutil_avg
GPU 内存使用率	qce_cvm_gpumemusage_avg
GPU 内存使用量	qce_cvm_gpumemused_avg
GPU 内存总量	qce_cvm_gpumemtotal_avg
GPU 功耗使用率	qce_cvm_gpupowusage_avg
GPU 功耗使用量	qce_cvm_gpupowdraw_avg
GPU 功耗总量	qce_cvm_gpupowlimit_avg
GPU 温度	qce_cvm_gputemp_avg
GPU 编码器使用率	qce_cvm_gpuencutil_avg
GPU 解码器使用率	qce_cvm_gpudecutil_avg
GPU是否存在显存页需隔离	qce_cvm_gpuretiredpagepending_last
GPU显存是否发生UCE	qce_cvm_gpueccterminateapp_last
vRDMA网卡入包量	qce_cvm_vrdmainpkt_sum
vRDMA网卡出包量	qce_cvm_vrdmaoutpkt_sum
vRDMA网卡发送带宽	qce_cvm_vrdmaouttraffic_sum
vRDMA网卡接收带宽	qce_cvm_vrdmaintraffic_sum

一、目标

使用腾讯云自带的 Prometheus 和 Grafana，通过腾讯云云监控导入的 CVM 指标，实现：

每台 CVM 一个 CPU 利用率小图

每行展示 3 台 CVM

展示最近 30 天 CPU 利用率趋势

左侧 Y 轴为百分比

增加 95% CPU 阈值线

二、前提条件

需要已经完成以下准备：

1. 腾讯云 Prometheus 实例已创建

2. 腾讯云 Grafana 实例已创建或已关联 Prometheus

3. Prometheus 已通过“云监控集成”接入 CVM 云服务器指标

4. Grafana 中可以查询到 qce_cvm_cpuusage_avg 等指标

三、使用的核心指标

CPU 利用率指标：

qce_cvm_cpuusage_avg

常用标签：

instance_id CVM 实例 ID

instance_name CVM 实例名称

instance_region CVM 所在地域

四、新建 Dashboard

进入 Grafana：

五、创建 CVM 实例变量 instance_id

进入 Dashboard 设置：

变量配置如下：

Select variable type：Query

Name：instance_id

Label：CVM实例

Data source：选择腾讯云 Prometheus 数据源

Query type：Classic query

Classic Query 填写：

label_values(qce_cvm_cpuusage_avg, instance_id)

继续往下找到：

Selection options

打勾：

✔Multi-value

✔Include All option

然后查看页面底部的 Preview values,正常应该能看到类似，如果能看到实例 ID，说明变量创建成功。：

ins-xxxxxxx

ins-yyyyyyy

ins-zzzzzzz

点击Apply

六、新建 CPU 利用率面板

回到 Dashboard，点击添加可视化：

选择数据源，腾讯云 Prometheus：

Visualization 选择：Time series，Query 使用：qce_cvm_cpuusage_avg{instance_id=~”$instance_id”} ，注意这里必须使用=~ ，不要写成=，因为 instance_id 变量开启了 Multi-value 和 All，使用正则匹配更稳。

七、设置 Legend 图例

在 Query 下方找到：Options

展开后找到：Legend

把默认的 Auto 改成：{{instance_name}} | {{instance_id}}

这样图例不会显示一长串标签，而是显示：主机名 | 实例ID

八、设置 Panel Title

右侧配置栏：CPU利用率 – $instance_id

九、设置 Y 轴为百分比

右侧配置栏中，搜索：Unit

设置：Unit：Percent (0-100)

再搜索：Min

设置：Min：0

再搜索：Max

设置：Max：100

十、设置左侧 Y 轴

右侧配置栏找到：Axis

设置：Placement：Left

这样 Y 轴会显示在左侧。

十一、设置 95% 阈值线

右侧配置栏搜索：Thresholds

配置：

Base：Green

95：Red

Show thresholds：As lines

这样图中会出现一条 95% 的红色阈值线。

十二、设置每台 CVM 一个小图

这是关键步骤。

在右侧配置栏找到：

Panel options

→ Repeat options

展开后设置：

Repeat by variable：instance_id

Repeat direction：Horizontal

Max per row：3

设置完成后，点击右上角：Apply

十三、选择全部 CVM

回到 Dashboard 顶部变量选择框：CVM实例，选择：全部，然后刷新 Dashboard。此时 Grafana 会根据 instance_id 自动生成多个 CPU 小图：