物资备灾之外,数据备灾也不能落下

图片来源@视觉中国

文|BAI资本

突如其来的疫情不仅让我们见证了人间的百态,也让我们看到了大企业在危急时刻的灾备意识。我们看到,拥有灾备意识的大公司往往可以在非常时刻平稳运营,并最终跨越周期。

比起众所周知的物资灾备,信息化时代尤为重要的数据灾备其实更值得我们重视。从1979年人类建立第一个数据灾备中心开始,到如今综合运用云计算、大数据与区块链技术的完善灾备体系。数据灾备,其实早就已经走过了漫长的发展历史。

In the aftermath of any and all computer disasters, backup that can have you on-line again within four hours, with full-time use for up to 30 weeks.

——Robert Bogle, president of Sungard Total Disaster Recover Systems, 19 Sep 1983

在任何计算机灾难发生之后,我们的备份都将在4个小时内让你再次上线,并在未来的30周内全天候使用。

——罗伯特·博格尔,历史上第一家数据灾备中心主席,1983年9月19日

中国人民备荒囤货的积极性堪称世界一流。

相对个人的积极物资备灾,企业的应对措施也没有落下。其实,越是那些经历过周期的大企业,便越是具有危机意识。他们大多会在平日里做好备案和预警,用以应对可能到来的各种危机。

对成熟的企业和机构而言,平日里“选修”甚至不修的“灾备”,其实是门值得深入钻研的必修课。

大型的跨国企业大多设有关注员工健康及福祉的专属部门,它们往往会提前制定详细的方案,以便在紧急时刻,及时向员工提供必要的援助。

为了及时检测并应对疫情,中国疾病预防控制中心信息中心也于大年初四紧急上线了“新型冠状病毒感染的肺炎疫情分布系统”,以数字化的信息技术为公众及时了解疫情进展提供帮助。

系统访问地址:http://2019ncov.chinacdc.cn/2019-nCoV/index.html

在高度信息化的当下,几乎一切企业和机构的运营都已离不开数据和信息技术,信息技术的延迟与落后,将在很大程度上影响到社会的正常运行,特殊情况下的数据“灾备”也因此是件无法忽视的事情。

比起摸得着看得见的物资灾备,数据“灾备”(Disaster Recovery)是一项低调却必要的存在。

据美国德克萨斯州大学较早前的一次调查显示:仅有6%的公司可以在数据丢失后存活下来,43%的公司会因数据丢失而关闭,51%的公司甚至会在数据丢失后的2年之内,彻底被人们遗忘。

可见除了线下的物资备灾,线上的数据备灾也真的不能忽视。

01 数据灾备史

不可小觑的数据灾备市场

比起我们熟悉的物资备灾,在现代社会中更为重要的,其实是信息化环境下的数据“灾备”。毕竟在高度依靠信息化数据的当下,任何形式灾害的杀伤力,都比不上数据的损坏和丢失。

所谓数据“灾备”,其实是利用IT技术对信息系统的数据和应用程序进行保护,确保系统在遭受灾难时数据的安全,以及业务的快速恢复。

自1979年美国费城诞生了第一个数据灾备中心(Recovery Center)之后,人类便在数据“灾备”的道路上越走越远。

数据灾备行业的勃兴算得上是1979年的一则大新闻 | ComputerWorld, December 10, 1979

也许出乎许多人意料,数据“灾备”如今已发展成了一个巨大的市场。一些机构的研究显示,至2019年,我国的灾备市场早已突破200亿人民币的大关,并向着更高的水平迈进。研究机构Markets and Markets则预测,全球的数据备份和恢复市场总额,在2022年还将达到116亿美元的水平。

数据灾备的起源及发展

这一切的源头,还要追溯到1979年。

这一年,软件和IT服务公司SunGard在美国费城建立了世界上第一个灾备中心(Disaster Recovery Center),对数据和系统进行备份,它的具体操作办法,在今天看来其实非常简单:造一个巨大的硬盘,让客户把数据资产在灾备中心多保存一份。

当年灾备中心服务的报价明细 | ComputerWorld, December 10, 1979

在这份1979年12月10日的广告中,我们可以清晰地看到SunGard公司灾备服务的报价:如果希望购买4小时内恢复数据的服务,用户不仅需要每月支付数千美元的费用租赁IBM的服务器,使用数据恢复服务的当日还需支付4500美元的使用费,如果希望开启数据恢复提示,则还需支付50,000美元的额外费用……

比起SunGard的天价,一个月30元的度娘网盘可以说是良心白菜价了。

也正是由于造价的高企,至1979年底,只有36家公司选择购买了SunGard的服务,在SunGard设定的80个服务名额上限中尚未及半,但划时代的“灾备”服务还是让SunGard公司登上了当年的《电脑世界》(ComputerWorld)杂志。

那是一个遥远的年代,今天看来十分笨拙的台式机,在当时还是“微型”(micro)的时髦货| ComputerWorld, December 10, 1979

SunGard灾备中心的出现引起了人们对于数据保护的重视,在随后的1988年,国际灾难恢复协会(Disaster Recovery Institute International, DRI)正式成立。1993年9月,DRI又发表了“通用知识体系”(Common Body of Knowledge),面向全社会公开了数据灾备的基础资源和相关知识。

随着灾难恢复事务(Disaster Recovery, DR)的日益繁琐,与之相配合的业务连续性(Business Continuity, BC)计划也随之出现。

所谓业务连续性,即是指在中断事件发生后,机构可以在预先确定的可接受水平上持续交付产品及服务的能力。

进行业务连续性规划,由此成为了很多大企业应对灾难的必要操作。

“9·11恐怖袭击事件”使得多家跨国公司的数据严重损毁,此后,数据“灾备”特别是异地“灾备”一时间成为了趋势 | Fortune

2007年10月,DRI在中国的分支机构DRI China成立,开始负责并管理DRI在中国BC专业人员的培训和认证。

也是从这年起,中国的数据灾备开始走上正轨。

02 数据灾备在中国

汶川大地震之后,数据灾备以及灾备技术在国家层面上得到了高度重视,2008年8月,国家发改委特地批准建立了 灾备技术国家工程实验室 (National Engineering Laboratory for Disaster Backup and Recovery),用以对数据备份与恢复、数据隐私与可靠性、灾备标准与测试验证以及网络信息安全等方向展开研究。

数据灾备虽然起源于美国,然而世界各地的相关标准却又不尽相同。1992年底,AnaheimM028国际会议曾制定了一个名为SHARE78的标准,该标准将灾备方案划分为七个不同的等级。

2007年,世界上第一个关于业务连续性管理的国家标准——英国标准BS 25999出台。2018年5月25日,后来大名鼎鼎的《通用数据保护条例》(General Data Protection Regulation, GDPR)在欧盟出台,它所代表的合规性成为了灾备行业关注的重要指标之一。

GDPR所代表的合规性,一直是灾备行业无法回避的重要议题 | www.nmma.org

我国的相关标准及法规也并未迟到。

比照SHARE78的七层等级,2007年出台的中国国家标准《信息系统灾难恢复规范》(GB/T 20988-2007)将中国的灾备能力等级做出了6个划分:

国际标准SHARE78 与国家标准GB/T20988-2007对照表 | 《2019中国灾备行业白皮书》

2013年,关于业务连续性的国家标准《公共安全业务连续性管理体系要求》(GB/T 30146-2013)正式发布,标准按照PDCA(Plan-Do-Check-Act)循环模型,对业务连续性管理做出了详尽的要求。

2015年,《公共安全业务连续性管理体系指南》国家标准(GB/T 31595-2015)也随后发布,两项国标的推出,使得我国的业务连续性管理体系已经逐渐与国际接轨。

这么看来,数据灾备的国家标准已经到位了。

03 数据灾备的操作办法

数据灾备的道理我们确实都懂,可一旦特殊情况降临,高度依赖信息化数据运营的企业和机构又该如何进行数据灾备操作呢?

灾备建设要分几步走?

依照灾备技术国家工程实验室等机构联合发布的《2019中国灾备行业白皮书》中的相关意见,在紧急情况来临前,机构与企业可以先结合自身的业务 ,分三步做好灾备建设:业务连续性规划、方案设计与方案实施。

数据灾备建设的最终目的即是要保护业务在紧急情况下也可以持续地运行,故而做出业务连续性规划是灾备建设的大前提。

依据国际流行的准则,要把业务连续性规划(装冰箱)处理好,总共可以分10步:

① 规划启动

② 风险评估

③ 业务影响分析

④ 业务连续性策略

⑤ 突发事件响应

⑥ 计划编制与实施

⑦ 认知与培训规划

⑧ 业务连续性计划的演练、审计和维护

⑨ 危机沟通

⑩ 与外部机构的协调

上述十个步骤和操作中的管理是目前国际通用的方法,不仅适用于企业和业务功能,也适用于企业机构的信息系统。

做出业务连续性规划之后,便是综合考虑场地、设备、流程、架构和调度等多个维度进行专属企业自身的方案设计并将之实施了。

灾备建设的衡量标准

根据《2019中国灾备行业白皮书》的建议,评估一个灾备系统是否可靠,主要依据两个指标: 恢复时间目标(Recovery Time Objective, RTO)和恢复点目标(Recovery Point Objective, RPO)。

RTO指的是系统崩溃宕机后到恢复运营正常的间隔时间,可以想见,RTO其实是机构可以容忍的系统恢复时间。

RPO则是容灾系统把数据恢复到灾难发生前时间点的数据,亦即灾难前最后一个备份时间点上所存储的数据。

作为衡量灾备水平的指标,RPO和RTO缺一不可 | whipcord.com

不同的机构及企业,对于RTO和RPO的要求有着很大的不同。对国计民生有着重大影响的机构,甚至苛刻地将RTO和RPO设置为0!

比如这份国核电力规划设计研究院的数据保护方案中,不仅要求RPO=0,RTO≈0,备份目标上的数据也要确保100%可用,数据库甚至不能出现无法加载的情况。

和力记易为国核电力规划设计研究院提供的数据保护方案示意图 | 灾备产业技术联盟咨询案例

显而易见,平衡自身业务需求与预算,设定符合自身情况的RPO与RTO,无疑是做好数据灾备规划的关键。

方兴未艾的云灾备

了解了灾备的原则和方法,选用恰当的技术手段完成灾备便成为重要的一步。

在饱受本地灾备中心带来的种种不便之后,为了提高灾备系统的可用性,人们往往会采取异地容灾备份的方式,以避免可能遭受的团灭。

传统的异地容灾备份要求灾备中心和机构之间的物理距离不少于300公里,同时还必须保证“三不”: 不在同一地震带,不在同一电网,以及不在同一江河流域。 从而避免灾害将临时,灾备中心和机构主体被一并殃及。

难以想象,如果灾备中心和机构主体处于同一地震带…… | 澎湃新闻

然而人算不如天算,分处异地的灾备中心与机构主体也总有同时出现问题的可能,这就使得由大量分布在不同地点的服务器组成的云主机系统成为了更优的选择。

使用云技术的云灾备已成为当下一种可靠性较强的选择。云计算、大数据的出现,不仅使得企业和机构可以在大幅减少人力成本投入的情况下,相对便捷地完成数据灾备,也由于主机的分散布置,系统性地降低了数据损毁的风险。

利用云技术实现灾备也在某种程度上得到了国家的鼓励。

2018年,工业和信息化部印发了《推动企业上云实施指南(2018-2020年)》,鼓励企业使用云技术进行灾备。云计算乃至云灾备,正在成为维系企业生命的某种必条件。

2020年,中国正在成为全球最大的第三方云平台市场,阿里云、华为云、腾讯云、百度云以及优刻得UCloud等已成为云平台服务的主要供应商。优质的服务与宜人的价格,已让越来越多的企业与机构开始选择云技术完成数据灾备。

然而数据迁移时的安全问题以及数据一致性等问题却是摆在云灾备面前的巨大挑战。相信随着区块链技术的出现,云灾备的数据泄露风险或许将得到有效的避免 | Keychain.io

2017年6月10日,荷兰海牙的云主机商Verelox的一位管理员就疑似因对公司不满,手动删除了云主机中的所有数据,让寄希望于云端存储的无辜用户顿时傻眼。

事件发生后,Verelox发送给全体用户的致歉信,尽管公司提供了各种补救方案,但数据的遗失毕竟无法完全追回 | Verelox官网

无独有偶,2月25日,又有某港股上市企业发布公告称,其SaaS业务数据遭到了员工的“人为破坏”,“破坏”导致大面积服务集群无法响应,生产环境及数据遭受了严重破坏。截止2月25日12点,该上市企业的股价跌幅超过4.5%,一日之内蒸发了近10亿港元的市值。

堡垒往往是从内部攻破的 | Weimob微盟公司公告

然而无论灾备的技术多么先进,保障灾备的制度多么完善,真正要让灾备在危机到来时派上用场的,还是要靠具有灾备意识、专业知识过硬的人。

毕竟,再先进的技术,也敌不过狠心的删库跑路。

本文参考:

  • Demrovsky, Chloe: Letter from the President: 2019 At-A-Glance. DRI Drive, 31 Jan. 2020.

  • History of Disaster Recovery and Business Continuity. J.D. Fox Exec.

  • Keefe, Patricia: Disaster Recovery Industry Burgeoning. Computerworld, 19 Sept. 1983, pp. 73.

  • Sungard Availability Service: Data Centre Datasheet. Philadelphia Data Centre 401.

  • The Preparedness Movement. The Preparedness Movement - World War I Centennial.

  • DRI China: DRI China及成员,DRI China,浏览日期:2020年2月23日。

  • e医疗:重金建立的中国传染病与突发公共卫生事件监测信息系统,这次起作用了吗?,e医疗,2020年2月13日,浏览日期:2020年2月26日。

  • 工信和信息化部:工业和信息化部关于印发《推动企业上云实施指南(2018-2020年)》的通知,2018年7月23日,浏览日期:2020年2月23日。

  • 和力记易:和力记易为国核电力规划设计研究院提供数据保护方案,灾备技术产业联盟,2015年8月28日,浏览日期:2020年2月23日。

  • 黄锐:硬核:用区块链技术改进国家级传染病监测预警网络,人人都是产品经理,2020年1月29日,浏览日期:2020年2月26日。

  • 刘玉海:SARS之后国家重金打造的传染病网络直报系统,为何并未及时启动?,经济观察网,浏览日期:2020年2月26日。

  • 信息化和软件服务业司:《推动企业上云实施指南(2018-2020年)》解读,中华人民共和国工业和信息化部,2018年8月10日,浏览日期:2020年2月23日。

  • 信娜,王小,孙爱民,辛颖:投资7.3亿打造的传染病网络直报系统,为何失灵了28天?,《财经》,浏览日期:2020年2月25日。

  • 中国疾病预防控制中心:中国疾控中心推出新型冠状病毒感染的肺炎疫情分布系统,2020年1月30日,浏览日期:2020年2月26日。

  • 中国疾病预防控制中心:中国疾病预防控制传染病监测信息系统介绍,2007年2月15日,浏览日期:2020年2月26日。

【钛媒体作者介绍:本文为#BAI科全书032期# ,来自BAI(贝塔斯曼亚洲投资基金)】

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章