【监控与可观测性】02-Grafana最佳实践Dashboard:运维必备10个面板

发布时间:2026/7/2 23:20:27
【监控与可观测性】02-Grafana最佳实践Dashboard:运维必备10个面板 专栏监控 可观测性难度入门标签GrafanaDashboard可视化监控面板Prometheus前言Grafana 的 Dashboard 是运维每天盯着的大屏。本文分享10个最实用的面板配置帮你打造一个真正好用的运维大屏。一、安装 Grafanadockerrun-d\--namegrafana\-p3000:3000\-vgrafana_data:/var/lib/grafana\-eGF_SECURITY_ADMIN_PASSWORDadmin123\grafana/grafana-oss:latest访问http://your-ip:3000添加 Prometheus 数据源。二、10个必备面板配置面板1CPU 使用率仪表盘{type:gauge,title:CPU 使用率,targets:[{expr:100 - (avg(rate(node_cpu_seconds_total{modeidle,instance~$instance}[5m])) * 100),legendFormat:CPU %}],fieldConfig:{defaults:{thresholds:{steps:[{color:green,value:0},{color:yellow,value:70},{color:red,value:85}]},max:100,unit:percent}}}面板2内存使用率时序图PromQL: (1 - node_memory_MemAvailable_bytes{instance~$instance} / node_memory_MemTotal_bytes) * 100 类型: Time series 单位: percent (0-100) 阈值: 80% 黄色, 90% 红色面板3磁盘 I/O 速率读速率: rate(node_disk_read_bytes_total{instance~$instance,device!~dm-.*}[5m]) 写速率: rate(node_disk_written_bytes_total{instance~$instance,device!~dm-.*}[5m])面板4网络流量流入: rate(node_network_receive_bytes_total{instance~$instance,device!lo}[5m]) 流出: rate(node_network_transmit_bytes_total{instance~$instance,device!lo}[5m]) 单位: bytes/sec (Grafana自动换算为KB/MB/GB)面板5HTTP 请求 QPStotal QPS: sum(rate(http_requests_total[5m])) by (service) error QPS: sum(rate(http_requests_total{status~5..}[5m])) by (service) error rate: sum(rate(http_requests_total{status~5..}[5m])) / sum(rate(http_requests_total[5m])) * 100面板6P50 / P95 / P99 延迟P50: histogram_quantile(0.50, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) P95: histogram_quantile(0.95, ...) P99: histogram_quantile(0.99, ...) 单位: seconds → milliseconds面板7Pod 重启次数K8skube_pod_container_status_restarts_total{namespace$namespace} 类型: Table按重启次数降序 阈值: 0 黄色, 5 红色面板8节点概览 Table指标组合展示 - 节点名称 - CPU 使用率 - 内存使用率 - 磁盘使用率 - 节点状态 类型: Table with color threshold面板9告警状态总览ALERTS{alertstatefiring} 类型: Stat panel 配色: 0 green (无告警), 0 red面板10JVM 内存Java 应用堆内存使用: jvm_memory_used_bytes{areaheap} 堆内存上限: jvm_memory_max_bytes{areaheap} GC停顿时间: rate(jvm_gc_pause_seconds_sum[5m])三、Dashboard 变量配置变量类型: Query 变量名: instance Query: label_values(node_cpu_seconds_total, instance) 刷新: On time range change四、导入社区 DashboardDashboardID用途Node Exporter Full1860服务器全面指标K8s Cluster6417K8s集群概览MySQL7362MySQL监控Nginx9614Nginx请求统计# Grafana UI: Dashboards → Import → 输入ID结语好的 Dashboard 应该让运维工程师一眼就能判断系统是否正常。颜色语义、阈值设置、变量联动是打磨 Dashboard 的三个关键维度。