这句话给人的感觉好像冥冥中自有天意。实际上我想说的是,一切都是暂时的,没有永恒。
比如计算机系统中跑的程序,它们都有寿命。就算程序没有bug,它也无法一直运行下去。当前医院系统中跑的程序都有一个硬件周期,大多数是五年。每过五年,各种程序、配置都需要随时做好崩溃的准备。因为它们的底层硬件已经过年限了。如果不做好备份或迁移的准备,随时会出现无法修复的结局。
当经历过多个五年周期后你就会相信,五年是个坎。大多数医院信息科的科长是没有魄力做到每五年更换一次硬件的。就像文章的标题一样,五年前种下的因,到了时间就会结相应的果,一切皆有定数,天意难违。
最终的结局一定是发生重大安全事故,然后迁怒硬件损坏。然后痛定思痛,重新投入大量预算做安全加固。为什么不提前以较小代价进行风险规避呢?因为没人为未发生的风险买单,你说会坏难道就会坏?不是有运行了十年的服务器吗?
服务器的寿命是可以超过十年的,但对十年前的硬盘进行测速和坏道检测,会发现这些硬件基本上处于不可用的状态,更别提还要在上面跑业务。将业务跑在过保的硬件之上本来就是一种不负责的表现。
实际上不管已经用了多少年的服务器,保证数据有可靠的备份(不要在老旧设备上做备份),以及随时可还原的应急预案是必须的。但前提是你有足够的后备资源做切换。
如果你只有一套到了使用年限的集群,没有任何后续保障。那么就只剩下天意难违了。
以下以超融合集群为例,讲一下软硬件生命周期规划。
以15节点超融合为例,每节点成本20万,总投入300万。每节点设计运行虚机数为20台,15节点可运行虚机300台。当超配20%,即360台虚机,此时无更多资源实现单节点离线维护。此时风险为资源使用过于饱和,无法忍受单节点下线维护风险。
超融合硬件属于普通的X86服务器,硬件维保可以买五年保。五年内任何配件损坏,原厂都提供配件更换。配件更换时需要停机维护,与上述风险合并,要求随时能做到单节点停机维护。
超融合授权是基于CPU颗数的终身授权,理论是过了五年,直接购买新的服务器更换即可。硬件更换时虚机系统可以做到无感知迁移,这也是超融合相对直接在服务器硬件上装系统的优势。
推荐做法是服务器硬件购买五年保,五年后购买新硬件替换过保硬件。替换下来的服务器可作为二线非核心业务或测试业务。用于生产环境的服务器应选择保内服务器。
如果信息科主任无法接受五年周期的宿命,可以挑战一下自己的软肋。但要提前做好预防磁盘损坏的风险,并需要加大巡检力度或自动化巡检水平,保证在磁盘损坏到丢数据或性能降级前主动发现,数据丢失比系统损坏造成影响更为恶劣。
建议无法做到整体硬件更换的信息科,至少做到全硬盘更换。即将已经使用了五年的硬盘全部更换为新硬盘。一块一块打报告购买或更换所需要的人力或时间成本远大于一次性更换。我曾经每月更换1至2块存储硬盘,最后还是难以阻止整个存储垮掉。所幸在刚出现硬盘更换时就已将重要数据做了迁移,后续换掉1/3的硬盘大概20来块时,存储彻底无法使用。不要等到硬件坏到彻底失去维修价值再放弃。
每一个IT事故的背后都是捉襟见肘的窘迫。为什么不搞三复本,为什么不搞容灾,为什么不做备份,为什么没有冗余,有没有备品备件,事件发生时应急预案为什么总是无法生效?
冗余是两个馒头,吃一个,丢一个。两台服务器一台用来跑生产,另一台闲着。怎么能让它闲着,主备模式不能用,至少应该是主主模式,分担一下负载,不能让它闲着。
但异地容灾就是要求闲着,容灾的目的是实现切换。资源都跑满了,如何做切换。
我们科主任见证了多次行政更迭,差不多每届领导更换时信息系统就会出现重大事故。我算了一下,这个周期正好是五年与硬件同寿。
全文完。
如果转发本文,文末务必注明:“转自微信公众号:生有可恋”。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...