在运维工作中,Zabbix 是一款功能强大的监控工具,可以监控多种系统参数和业务指标。以下是 Zabbix 常见的监控参数分类及具体内容:
1. 系统监控
CPU
使用率(用户态、系统态、空闲时间)
上下文切换次数
中断次数
内存
总内存、可用内存、已用内存
Swap 使用情况
磁盘
磁盘空间使用率
I/O 速率、平均等待时间
网络
网卡状态、发送/接收流量
错误数据包、丢弃数据包
进程
进程数量、僵尸进程数量
特定进程的 CPU 和内存占用
用户
当前登录用户数量
2. 服务监控
Web 服务
Nginx、Apache 的响应时间、请求量、错误率
数据库
MySQL、PostgreSQL、MongoDB 的连接数、查询速度、缓冲池命中率
缓存系统
Redis、Memcached 的命中率、连接数、内存使用情况
中间件
Kafka、RabbitMQ 的队列长度、消息吞吐量
3. 网络监控
网络设备
路由器、交换机的端口流量、丢包率、延迟
网络延迟
多机房、多节点的延迟
带宽使用
网络设备的进出口流量
4. Web 应用监控
响应时间
页面加载时间、API 请求时间
可用性
模拟用户操作(如登录、提交表单)监控 Web 应用的功能完整性
5. 日志监控
日志内容
监控日志中的异常信息
日志生成速率
监控日志文件的大小变化
6. 安全监控
防火墙
流量、连接数、安全事件
防火墙规则
监控 Firewalld 等防火墙规则的变更
安全事件
监控 WAF、安全狗等工具的告警信息
7. 业务监控
业务指标
电商网站的销售量、转化率、新客户数量
活动监控
监控活动页面的流量、注册量、订单量
8. 硬件监控
服务器
风扇转速、温度
网络设备
路由器、交换机的硬件状态
9. 自定义监控
自定义脚本
如 MySQL 的复制延迟、自定义业务指标
9. 监控标准
Zabbix 的监控标准通常是通过 触发器(Triggers) 来定义的,触发器基于监控项的值设置阈值,当监控项的值超出阈值时,触发器状态变为“问题”,并生成事件。以下是一些常见的监控标准示例:
CPU
CPU 使用率超过 90% 持续 5 分钟
系统负载(1 分钟、5 分钟、15 分钟平均值)超过 CPU 核心数
内存
可用内存低于 10%
Swap 使用率超过 50%
磁盘
磁盘空间使用率超过 80%
磁盘 I/O 等待时间超过 10ms
网络
网卡流量超过设定阈值(如 100Mbps)
网络延迟超过 100ms
服务
Web 服务响应时间超过 3 秒
数据库连接数超过最大连接数的 80%
10. 监控标准的设置原则
业务相关性:监控标准应与业务需求紧密相关,确保监控指标能够反映业务的健康状态。
可维护性:监控标准应易于理解和调整,避免过于复杂的触发器。
平衡性:避免过多的告警,以免造成运维人员疲劳。
综上所述,通过合理设置监控标准,Zabbix 可以有效帮助运维人员及时发现和解决问题,保障系统的稳定运行。