浙政钉是基于政务钉钉的浙江政务协同总平台,是浙江省政府数字化转型的标杆项目之一,具备通讯、办公、协同三大能力,实现手机、Pad、PC多端同屏在线。作为大规模、高并发、高实时性、高业务连续性要求的典型代表应用,对系统的稳定运行要求较高,给运维管理工作提出了很高的要求。
项目阐述
浙政钉稳定性体系的建设。项目从2022年5月开始建设,到11月初步建成。建设的周期与应用本身的复杂度、稳定性建设的深度、业务连续性要求的高度都强相关。
首先是项目准备阶段,针对稳定性建设目标进行逐层拆解,明确项目计划、风险及需要的资源支持。业务梳理分析阶段,主要对浙政钉业务模块进行访谈、梳理,输出业务功能的结构树,后续的监控、事件、故障、人员协同均将基于这个业务功能结构树进行关联,形成业务CMDB。产品工具部署阶段,针对需要的产品工具进行资源评估及部署。
其次是并行推进机制及监控体系的建设,包括故障等级定义、应急场景、业务监控、应急机制等建设内容,由于整个体系监控建设尤为关键,需要结合业务进行逐个梳理,因此跨度周期较长,可通过业务的监控覆盖率作为过程指标进行考核跟踪。
在业务CMDB、机制、监控建设完成后,进入试运行阶段,对稳定性相关的运维研发测试运营管理等角色人员,进行宣导、贯彻执行,过程中不断优化机制流程。最后进入持续的数据运营阶段。任何应用的稳定性建设想要得到质的提升,没有“一招鲜”,需要基于各个阶段所沉淀的结构化数据,进行数据化运营、分析,包括改进措施的制定、完成、演练,结合故障案例的稳定性宣导,对故障关键指标数据进行横向对比、分析,过程中为了更好地保障稳定性不断改进产品工具。
成效及亮点
浙政钉在经过了持续的稳定性建设、探索及优化后,已取得了初步的成效。阿里云将整个运维稳定性建设工作抽象为事前、事中、事后三个环节:事前做预防,把可预见的故障消灭在业务影响前;事中做快速恢复,对于已发生的故障,先恢复再排查根因;事后演练强化,落实改进措施,杜绝重复故障的发生。浙政钉在5万监控指标覆盖及320个全量故障场景100%覆盖的情况下,实现了540+天的业务连续运行及100%的应用可用率。
以往很多大屏的设计开发都以呈现酷炫效果为主,而阿里云是从应急指挥角度,赋予大屏“稳定性哨兵”的职能,站在业务负责人的角度,纵观整个应用的运行实况,整体内容涵盖应用的业务监控、应用监控、云资源监控、风险事件、生产故障、业务可用率、关联变更、发布统计等各维度指标数据,其中业务监控是应急指挥的核心风向标。
在浙政钉实时运行大屏的最中间区域,是浙政钉最核心的业务指标:即时通讯消息发送成功量,其承载的浙江省百万级用户,无论是单聊、群聊,有无异常、有无错误产生、聊天波峰波谷都一目了然。基于智能基线算法,实时产出拟合实际业务曲线的基线,对接下来的业务指标走势进行预测,当检测到即将出现业务高峰时,进行自动化应用巡检,检查云资源运行水位、关联变更、核心业务模块指标是否存在异常或风险,防患于未然,先于用户发现问题。
大屏左侧以浙政钉核心业务模块进行轮播展示,一是对应核心业务模块的业务监控指标,二是每个业务模块所关联的云资源监控指标,如ECS/RDS/SLB/REDIS等。以往在故障处理过程中,遇到如RDS CPU高、ECS IO高、REDIS 内存打满等问题,很难判断对于业务侧的影响,或反过来说业务指标出现下跌,是否是对应云资源层面的异常引起,往往都缺乏关联判断,而所有这些指标数据关联的背后,都对应需要一套完整的CMDB来支撑。这样即可将业务监控与云基础设施监控进行串联,更高效地对故障进行定位、分析。
大屏右侧是风险事件、生产故障、关联变更、业务可用率等信息,从阿里云实际稳定性建设经验来看,生产故障往往跟变更频次直接相关,在对业务监控指标、云基础监控指标进行异常判断时,快速定位是否由变更引起,将对整个故障的恢复时长起关键性作用。(杭州市 卢亦泰 许澄澄 张伟驾 李峰 付来文)
编辑点评
浙政钉作为浙江省政府数字化转型工作要点,承载了浙江省百万级政务人员的在线办公,对稳定性有非常高的要求。在经过阿里云持续地稳定性建设、探索及优化后,使得浙政钉在5万监控指标覆盖及320个全量故障场景100%覆盖的情况下,实现了540+天的业务连续运行及100%的应用可用率。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...