1.
概述与运维目标
- 目标:保证香港新世界节点(含VPS/物理主机/云主机)可用性≥99.95%
- 覆盖范围:CPU/内存/磁盘/网络/连接数/域名解析与CDN回源链路
- 工具链:Prometheus+node_exporter、Grafana、Zabbix、ELK、tcpdump、iperf3
- 告警策略:分级告警(信息/警告/严重),自动化脚本(scale-out、流量清洗)
- 运维SLA:响应时间30分钟内、临时绕流2小时内恢复服务
2.
关键指标分类与采集频率
- 主机层(每10s):CPU使用率、Load Average、上下文切换、中断率
- 内存层(每30s):内存占用、Swap使用、页面回收率、缓存/活跃比
- 磁盘层(每30s):磁盘使用%、IOPS、平均响应时间(ms)、等待队列长度(await)
- 网络层(每5s):入/出带宽(Mbps)、丢包率、重传率、会话数(ESTABLISHED)
- 应用层(每1s-10s):RPS、TPS、错误率(HTTP5xx/4xx)、响应时间P50/P95/P99
3.
常用阈值与告警设置(建议值)
- CPU:使用率持续>80%(5分钟)触发警告,>90%(1分钟)触发严重告警
- 内存:可用内存低于15%或Swap使用率>20%触发告警
- 磁盘:磁盘使用率>85%触发警告,>95%触发严重告警;iops延迟>20ms触发告警
- 网络:带宽利用率>70%且丢包率>0.5%触发告警,重传率>2%触发严重告警
- 连接数:短时并发连接数>系统ulimit*0.8触发警告;SYN请求率异常飙升触发DDoS告警
4.
监控展示与阈值表(示例)
- 表格用于集中展示关键阈值,便于值班人员快速判断
- 表格居中显示,带1像素边框,文字居中便于阅读
| 指标 |
采集频率 |
警告阈值 |
严重阈值 |
| CPU 使用率 |
10s |
>80%(5min) |
>90%(1min) |
| 内存可用 |
30s |
<15% |
Swap>20% |
| 磁盘延迟 |
30s |
>10ms |
>20ms |
| 网络丢包率 |
5s |
>0.5% |
>2% |
| 并发连接 |
5s |
ulimit*0.8 |
ulimit*1.0 |
- 表格为示例,实际阈值需结合业务压力测试结果调整
- 使用Prometheus alertmanager将表格中阈值转换为规则
5.
真实案例:双11促销期间的香港节点突发流量(案例说明)
- 背景:某电商在香港新世界节点做促销,流量在AM 10:00突增
- 初始配置:物理机型号 Dell R640,CPU 2xIntel Xeon Silver 4214(每颗12核24线程),内存128GB,NVMe 2x1.92TB RAID1,公网1Gbps带宽,CDN:Cloudflare,防护:BGP高防20Gbps
- 观测到的指标:入向峰值950Mbps,包速率200万pps,SYN请求每秒达12万,后端连接数瞬时200k+,CPU平均70%,Load Average达4.2,磁盘IO延迟短暂升至18ms
- 处置过程:1) 触发DDoS警报并自动切换到高防清洗;2) 动态扩容nginx upstream(scale-out到3台后端);3) CDN回源限速与缓存策略调整;4) 暂时下线低优先级请求接口(异步化)
- 结果:30分钟内将恶意流量清洗至BGP高防,后端真实流量降至150Mbps,响应时间P95从1.2s降至0.35s,业务可用性保持在99.98%
6.
典型监控命令与指标获取示例
- CPU/Load:使用top、uptime或cat /proc/loadavg;示例:Load Average 1/5/15 = 4.2/3.1/2.0
- 磁盘IO:iostat -x 1 3,关注%util、await、svctm
- 网络:ss -s 查看TCP状态,iftop/vnstat监测带宽,tcpdump -n捕获包样本
- 连接追踪:netstat -an | grep SYN | wc -l 或使用conntrack -L(需内核模块)
- 可视化:prometheus node_exporter + textfile collector 自定义脚本上报磁盘SMART、硬件温度等
7.
预防与优化建议
- 系统层:调整ulimit、net.ipv4.tcp_max_syn_backlog、tcp_tw_reuse、tcp_fin_timeout等内核参数
- 应用层:开启keepalive、压缩响应、启用连接池、减少同步阻塞操作
- CDN与DNS:使用Anycast+多节点DNS,TTL设置合理(促销期间适当降低)以便快速切换
- DDoS策略:与带宽提供商预置应急线路,启用流量清洗、SYN Cookie、连接速率限制
- 灾备:跨可用区及跨机房热备,数据库读写分离,定期演练故障切换流程(每季度一次)
来源:管理员手册香港新世界服务器运维与监控的关键指标说明