1.
准备与选购:确认CN2链路与机房
选择香港服务商前,明确需求(带宽、IP数量、是否可做BGP、是否有CN2/CT优质链路)。操作步骤:1) 联系候选商,索要“CN2/CT线路保证函”或链路拓扑;2) 要求提供Looking Glass或试用IP用于路由检测;3) 通过mtr/traceroute在中国内地多地进行探测,确认AS路径和延时;4) 确认是否支持独立BGP或仅共享出口,必要时要求公开ASN与上游Peer信息。
2.
获取IP与BGP/路由设置
如果供应商支持BGP:1) 提供你的ASN和公网前缀申请;2) 商议BGP邻居配置(peer IP、auth、prefix-limit、community);3) 要求CN2特殊社区或策略以优先走CN2链路;若无BGP,要求固定公网IP并测试稳定性。验收用命令:traceroute -n -w 1 -q 1 target,mtr -r -c 100 target,观察是否走CN2节点(低丢包、低时延)。
3.
系统与网络基础配置
在每台香港节点上:1) 基线镜像(Ubuntu/CentOS)更新 apt/yum;2) 设置防火墙(ufw/iptables),仅放开必要端口(80/443/22/自定义端口);3) 配置主机名、时区、NTP;4) 挂载监控分区并做文件系统限制;5) 配置SSH密钥登录并禁用密码认证。
4.
应用部署与反向代理配置
常见站群采用NGINX反代:1) apt install nginx 或 yum install nginx;2) 配置server块,开启gzip、http2、keepalive,限制请求速率;3) 使用Let's Encrypt自动签发证书(certbot),或上传商用证书;4) 为不同站点做独立虚拟主机和日志分离,方便后续故障定位。
5.
性能与连通性测试(上线前必做)
步骤:1) 使用iperf3在两端测带宽:iperf3 -c HK_SERVER -P 8 -t 60;2) 使用mtr从国内多点检测丢包和跳数:mtr -r -c 100 HK_IP;3) 用curl/ab/hey做并发压测(注意流量成本),记录响应时间和错误率;4) 对比CN2与非CN2情况下RTT与丢包,确认CN2优势。
6.
部署监控(Prometheus + Node Exporter)
安装步骤:1) 在监控主机下载Prometheus二进制并配置prometheus.yml,添加node_exporter与target;2) 在每台香港节点安装node_exporter:useradd -m -s /bin/false node_exporter;下载并启用systemd服务;3) 配置Prometheus抓取间隔(15s)并加入job标签(site=hk-cn2);4) 启用Alertmanager并配置邮件/钉钉/企业微信告警接收器。
7.
可观测性:指标与日志收集
指标:CPU、内存、磁盘、网卡吞吐、连接数、socket队列、TCP重传、95/99响应时间。日志:1) 部署Filebeat/Fluentbit,采集nginx日志并推送到ELK或ClickHouse;2) 在Prometheus设置blackbox_exporter做合成监测(http,tcp,ping);3) 建立Grafana面板展示关键KPI并设置阈值。
8.
告警策略与自动化恢复
制定分级告警:P0(全站不可达)、P1(高丢包/延时)、P2(磁盘99%)、P3(慢请求)。实现自动化:1) 脚本自动重启服务(systemctl restart nginx)并记录;2) 使用Ansible批量执行故障修复脚本;3) 对关键异常(如网卡down)触发工单并短信通知值班。
9.
流量调度与IP轮换(站群管理常用)
站群需要IP池管理:1) 维护DNS管理脚本(Cloudflare/阿里云DNS API)快速切换A记录;2) 定时检测IP黑名单/可达性,不可达则自动调用API切换;3) 使用负载均衡器或Nginx upstream权重实现灰度迁移,避免一次性切换造成大量缓存失效。
10.
安全与合规:防护与备份
安全措施:WAF(ModSecurity或云WAF)、限流、IP黑白名单、Fail2ban 防爆破。备份:1) 配置自动全量/增量备份到对象存储(S3兼容);2) 定期做恢复演练,确认备份可用;3) 关键配置版本化(git)并存放在私有仓库。
11.
运维流程与生命周期管理
制定SOP:1) 上线流程(测试→灰度→发布→回滚);2) 日常巡检脚本(连通性、磁盘、证书过期);3) 版本与补丁管理,定期安全更新;4) 退役流程(DNS下线、数据销毁、回收IP)。
12.
持续优化与成本控制
通过流量/性能数据做优化:合并静态资源、开启缓存、压缩。定期评估CN2链路成本与收益,必要时与供应商协商更优路由或带宽包组合。使用预算告警避免费用突增。
13.
问:如何确认我的香港节点真的走的是CN2线路?
答:用国内多个出口(如电信、联通、移动)执行mtr和traceroute,观察中途跳数与AS号;CN2链路通常在AS路径里出现电信相关AS或CN2标识,且从国内到香港的延时与丢包显著优于公共线路。也可要求供应商提供Looking Glass或路由证明。
14.
问:如果发现某个节点丢包高或被屏蔽,第一时间怎么处理?
答:立即触发告警并执行SOP:1) 通过监控确认范围与影响;2) 在备用IP池中找可用IP并通过DNS或负载均衡切换;3) 同时联系供应商排查链路问题;4) 记录事件并在后续做白名单/策略优化或更换机房。
15.
问:站群规模扩大时,如何保证监控与告警不失效?
答:采用分层监控架构:每个地域部署collector(Prometheus federate或VictoriaMetrics),集中聚合指标;告警采用去重与抑制策略(Alertmanager),并按业务重要性分级通知,避免告警风暴。并用自动化运维(Ansible/Terraform)统一配置与扩容。
来源:从配置到监控完成香港站群cn2全生命周期管理的步骤