当出现访问中断,首要确认故障影响范围(单台、单机房或跨地区)。先做的三件事:监控告警查看、尝试从不同网络节点ping与curl测试、以及登录控制台观察主机状态。分级能帮助你决定是做本地恢复还是联系上游运营商。
查看告警时间线、网络带宽与主机资源(CPU/内存/磁盘)。若多个机房同时告警,优先怀疑上游链路或DNS问题。若仅单机或单机房,先聚焦该机或机房网络与交换设备。
执行 ping、traceroute、mtr,确认是否存在丢包或跳点延迟。验证DNS解析是否正常(使用dig/nslookup),并检查防火墙/安全组规则是否被误修改。
采用“从下到上”或“从外到里”的排查方法:先判断 硬件(电源、磁盘、网卡)、再看操作系统(内核日志、进程表)、最后检查应用层(服务日志、端口监听)。
登录BMC/iLO/IDRAC等管理接口查看硬件报警,检查磁盘SMART信息(smartctl)、RAID状态和网卡错误计数。若发现硬件故障,应立即触发备件更换或迁移。
查看/var/log/messages、dmesg、syslog,关注内核崩溃、OOM或文件系统错误。使用top/iostat/vmstat排查资源耗尽或I/O瓶颈。必要时启用系统审计(auditd)以捕捉异常行为。
检查应用日志、服务监听端口与依赖(如Redis、MySQL等)。使用strace或lsof定位阻塞或资源竞争。若是单一应用异常,优先考虑重启应用进程并回滚最近配置变更。
跨地域(福建、河南、香港)常见问题包括ISP链路抖动、BGP跳变或光缆问题。先用 traceroute/mtr 定位丢包发生在哪一段,然后联系对应上游或云厂商。
在多地节点同时发起mtr测试,比较丢包起始跳与RTT峰值,确认是链路中间段还是目标机房。对于BGP问题,可查询BGP Route、查看是否存在路径劫持或路由震荡。
可通过切换备份线路、启用CDN/Anycast、调整路由优先级或把流量导向就近(或健康)机房来缓解。对跨国/跨境链路,向运营商申请链路质量报告与光路检测。
保持各地节点的基线监控(延迟、丢包、抖动),并建立链路切换脚本与SLA沟通模板,方便与ISP/云厂商协同处理。
数据库恢复以不丢数据为首要目标,依赖最近有效备份与复制拓扑。先确认是逻辑错误(误删/误改)还是物理损坏(磁盘故障、表空间损坏)。
在开始恢复前,冻结写入或将读写切换到备节点,保证恢复过程中不会产生新的不一致。保留现有日志文件与二进制日志,以便回放。
根据恢复点目标(RPO/RTO),选择全备恢复+增量回放或提升从库为主库(promotion)。对MySQL使用binlog回放,对Postgres使用WAL归档回放。
恢复后进行完整性校验(checksum、行数比对)与业务测试,确认索引与权限正常。若需要,滚动恢复应用并监控性能。
发现入侵迹象应立即隔离受影响主机,断开公网或内网高风险链路,但避免重启或清理日志以保留取证证据。记录可疑IP、时间线和触发告警的具体细节。
按照预案进行事件分级,启动应急小组(网络、安全、业务、法务)。对外通报前先评估影响范围与泄露风险,必要时由法务或安全团队介入。
恢复优先从干净镜像或最近已验证的备份重建系统,避免直接在被入侵主机上修补。更换证书、密钥与密码,审计并修复被利用的漏洞后再恢复流量。
完成恢复后要做完整的事后复盘:梳理入侵路径、补丁管理、账号权限审计、增强检测规则(IDS/IPS、WAF)与定期演练,形成闭环。