【监控与可观测性】02-Grafana最佳实践Dashboard：运维必备10个面板

发布时间：2026/7/2 23:20:27

专栏监控可观测性难度入门标签GrafanaDashboard可视化监控面板Prometheus前言Grafana 的 Dashboard 是运维每天盯着的大屏。本文分享10个最实用的面板配置帮你打造一个真正好用的运维大屏。一、安装 Grafanadockerrun-d\--namegrafana\-p3000:3000\-vgrafana_data:/var/lib/grafana\-eGF_SECURITY_ADMIN_PASSWORDadmin123\grafana/grafana-oss:latest访问http://your-ip:3000添加 Prometheus 数据源。二、10个必备面板配置面板1CPU 使用率仪表盘{type:gauge,title:CPU 使用率,targets:[{expr:100 - (avg(rate(node_cpu_seconds_total{modeidle,instance~$instance}[5m])) * 100),legendFormat:CPU %}],fieldConfig:{defaults:{thresholds:{steps:[{color:green,value:0},{color:yellow,value:70},{color:red,value:85}]},max:100,unit:percent}}}面板2内存使用率时序图PromQL: (1 - node_memory_MemAvailable_bytes{instance~$instance} / node_memory_MemTotal_bytes) * 100 类型: Time series 单位: percent (0-100) 阈值: 80% 黄色, 90% 红色面板3磁盘 I/O 速率读速率: rate(node_disk_read_bytes_total{instance~$instance,device!~dm-.*}[5m]) 写速率: rate(node_disk_written_bytes_total{instance~$instance,device!~dm-.*}[5m])面板4网络流量流入: rate(node_network_receive_bytes_total{instance~$instance,device!lo}[5m]) 流出: rate(node_network_transmit_bytes_total{instance~$instance,device!lo}[5m]) 单位: bytes/sec (Grafana自动换算为KB/MB/GB)面板5HTTP 请求 QPStotal QPS: sum(rate(http_requests_total[5m])) by (service) error QPS: sum(rate(http_requests_total{status~5..}[5m])) by (service) error rate: sum(rate(http_requests_total{status~5..}[5m])) / sum(rate(http_requests_total[5m])) * 100面板6P50 / P95 / P99 延迟P50: histogram_quantile(0.50, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) P95: histogram_quantile(0.95, ...) P99: histogram_quantile(0.99, ...) 单位: seconds → milliseconds面板7Pod 重启次数K8skube_pod_container_status_restarts_total{namespace$namespace} 类型: Table按重启次数降序阈值: 0 黄色, 5 红色面板8节点概览 Table指标组合展示 - 节点名称 - CPU 使用率 - 内存使用率 - 磁盘使用率 - 节点状态类型: Table with color threshold面板9告警状态总览ALERTS{alertstatefiring} 类型: Stat panel 配色: 0 green (无告警), 0 red面板10JVM 内存Java 应用堆内存使用: jvm_memory_used_bytes{areaheap} 堆内存上限: jvm_memory_max_bytes{areaheap} GC停顿时间: rate(jvm_gc_pause_seconds_sum[5m])三、Dashboard 变量配置变量类型: Query 变量名: instance Query: label_values(node_cpu_seconds_total, instance) 刷新: On time range change四、导入社区 DashboardDashboardID用途Node Exporter Full1860服务器全面指标K8s Cluster6417K8s集群概览MySQL7362MySQL监控Nginx9614Nginx请求统计# Grafana UI: Dashboards → Import → 输入ID结语好的 Dashboard 应该让运维工程师一眼就能判断系统是否正常。颜色语义、阈值设置、变量联动是打磨 Dashboard 的三个关键维度。

相关新闻

基于开源工具链的5G NAS层安全合规性验证实战指南

从零搭建Python Selenium自动化测试框架：POM设计与Pytest实践

AI辅助生成Vue3项目E2E测试：基于Playwright与Kiro的工程实践

Si4732与PIC32MZ组合在数字音频接收中的优化实践

Windows 10/11终极指南：3种场景化方案彻底卸载Microsoft Edge浏览器

JMeter接口测试实战：从入门到精通，构建自动化与性能测试框架

OpenHarmony TextInput 输入框组件全场景开发与 API23 + 适配优化

数据结构——栈与队列：原理、实现与经典应用

Java毕业设计-基于 SpringBoot 的个性化课程推荐系统的设计与实现 基于 SpringBoot 的个性化教学信息推荐平台(源码+LW+部署文档+全bao+远程调试+代码讲解等)

GPT-5与Veo3双引擎AI开发实战与避坑指南

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

AI Agent五大设计模式解析与实战优化

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

别再死记硬背了！用‘分界线’思维彻底搞懂C++ set的lower_bound和upper_bound

TwitchDropsMiner：无需观看直播，自动化获取Twitch掉落奖励的终极指南

从提示工程到上下文工程：2026年AI开发者的核心技能转换

Java毕业设计-基于 SpringBoot 的个性化课程推荐系统的设计与实现基于 SpringBoot 的个性化教学信息推荐平台(源码+LW+部署文档+全bao+远程调试+代码讲解等)