最近有一则不太被大家关注的新闻,说农行顺利完成了分布式核心工程,稳妥实现了大型机的关停下电工作。
这是银行业规模最大、涉及客户最多的大型主机切换及下线工作,为我国商业银行核心系统架构转型提供了重要借鉴。
看到这些消息,我是很吃惊的,因为IBM最核心的技术,终于要被国产替代了!
很多人并不了解IBM大型机,这种被简称为大机的服务器十分神秘,深藏在核心的机房中,保存着最核心的数据,运行着最核心的业务,普通人根本没机会见到它。
大机以高性能,高可用性,高可靠性著称,它有一套自成体系的硬件和软件,在服务器市场中鹤立鸡群,价格也非常感人,只有超大型公司才能用得起。
我们拿2017年发布的z14来看看它的性能指标吧:
CPU主频5.2G Hz,10个核心
可以配置170个CPU
内存32TB (不是GB!)
最多支持8000个虚拟机
可以横向扩展到200万个Docker容器
为什么要设计出这样的“怪物般”的机器呢?
因为这个世界上存在着一些关键业务,对平台要求极高。
几年前,调研机构Qualix Group曾有一组数字,服务器宕机1分钟,平均使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元……
尤其对于银行业,如果银行系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。
必须有一种机器,在处理能力、稳定性和安全性上,满足这些需求,大型机就应运而生。
01
硬件
大型机一般都在系统内集成了高程度的冗余和错误检查技术,防止系统发生灾难性问题。
大型机的每个处理器核心都有2个完全的执行通道来同时执行每一条指令。如果两条通道的计算结果不一致,CPU的状态就会复原,重新执行该条指令,结果还是不一致的话,一个空闲状态的CPU将会被激活替代当前的CPU。
独立磁盘冗余阵列(RAID)大家都听说过,可以用冗余的磁盘和条带化算法,防止数据的损坏和丢失。
2010年,IBM率先把类似的理念也引入到内存当中,用部分物理内存实现磁盘RAID的功能,叫做RAIM(独立冗余内存阵列), 从而实现内存的高可用性。
除了CPU和内存外,其它的元件如内存总线、I/O通道、电源等等,都有相应的冗余设计。确保系统的高可靠性、高可用性。
即使出错,许多组件的热拔插特性也能确保系统的高服务性,在系统运行的同时被更换。
在大机中把很多软件模块都被硬件化了,比如硬件压缩卡、排序指令、向量运算指令,随机数生成器、加密硬件(AES、DES、TDES、SHA等),非常的霸气。
大机的处理器用的是自己独特z/Architecture主机架构。
IBM z14 有170个处理单元(PU),每个PU中除了我们常说的中央处理器(CPU)之外,还有集成固件处理器,集成信息处理器,内部耦合处理器等专用处理器。
这些专用处理器完成特定工作,卸下CPU的工作负载,让它专注于操作系统和应用程序。
02
软件
大机的操作系统也是独特的,叫z/OS,看看这复古的界面:
在上面可以运行DB2, IMS(数据库),CICS(交易中间件),JVM等应用程序,当然,它们也都是为大机定制的。
大机也提供了强大的虚拟化能力,可以创建多个虚拟机实例,每个虚拟机运行不同的操作系统和应用程序:
有意思的是无论操作系统,还是上面的应用程序,它们的收费方式很独特:用户定期上传一个报告,根据使用情况来计算软件费用。
比如MSU(Million Service Units),这是IBM z Systems上一个用于测量处理能力的度量单位,一个MSU相当于系统每秒能够执行一百万条指令。
在IBM z/OS操作系统中,许多IBM和第三方软件都使用MSU来确定许可成本。客户通常需要购买足够的MSU来覆盖其应用程序和工作负载的处理需求。
我原来所在的IBM部门,就是专门负责大机上软件的销售和费用计算的,业务逻辑很有意思。
03
向后兼容性
单独把向后兼容性拎出来说,是因为对于关键业务应用来说,它实在太重要了。
它可以让大型公司平稳地升级硬件和软件,而无需重写或修改现有的应用程序。
IBM大型机的历史可以追溯到上世纪60年代,那个时候IBM通过System/360统治了计算机市场,后来虽然不断进化,但是一直保持了向后兼容性。
许多为早期系统编写的应用程序,在 50 年后仍然可以在最新的 IBM z系统上运行,无需修改。
所以我们看到很多用COBOL写的恐龙级古老应用:税收、社保、医疗保险、保单、理赔等,在大机上稳定运行了几十年,并且极有可能会继续运行下去。
04
国产化替代
早些年互联网企业掀起了一场“去IOE”的运动,利用分布式技术,把IBM的小型机,Oracle的数据库,EMC的存储给“干掉了”。
但是看了上面的科普,你就会明白,想替换掉大机难度远超“去IOE”。
更何况大型机主要是银行、金融等行业在使用,保存着最核心的数据,运行着最核心的应用,比如你的银行账户数据,这些不允许有一丝一毫的错误。
农行是怎么做的呢?我去搜了一下,只找到了很少的信息,简单来说就是用分布式的核心系统替代集中式的大型机。
1. 农行分布式核心系统建设采用的数据库是TDSQL。
2. 在核心架构上,农业银行采用了高并发处理能力的分布式微服务架构,可以同时支持超过8亿客户的4011项综合金融服务。
3. 根据测试数据,系统响应时间提升至毫秒级,交易处理能力由每秒5000笔提升至8000笔。
4. 系统具备了强大的数据备份恢复能力,可以在极短的时间内恢复故障数据,确保客户信息的安全性。
5. 新版分布式核心系统实现了零停机、零问题、零差错和零投诉的目标。
6. 这是银行业规模最大、涉及客户最多的大型主机切换及下线工作,为我国商业银行核心系统架构转型提供了重要借鉴。
一般来说,企业推出新产品/解决方案,实际的效果要在宣传的效果上打个折扣,我相信大型机的关停下电工作不会像表面上看起来波澜不惊,一帆风顺,有知道详情的同学可以在评论区聊聊。
但是农行把这件事搞成了,这本身就是一个巨大的突破。
这不由得让我想起了IBM在中国的命运,20年多前,IBM的大型机,小型机,x86服务器可谓风头正劲,五大品牌软件WebSphere、Db2、Lotus、Tivoli、Rational在企业软件市场被众人追捧,再加上咨询服务业务,IBM在中国真是赚得盆满钵满。
IBM在中国负责研发业务的公司叫做国际商业机器(中国)投资有限公司,下设中国研究院(CRL),中国开发实验室(CDL)和IBM中国系统中心(CSL)等机构,薪资高,活儿轻松,人性化管理,是诸多名校毕业生趋之若鹜的地方,
互联网浪潮一浪接一浪打来,IBM被动成为“去IOE”运动中的一员,硬件和软件逐渐失势,就剩下大型机还在苦苦支撑。
2021年CRL关闭,2024年CDL和CSL关闭,2025年国际商业机器(中国)投资有限公司停止运营。
只剩下一个负责销售、市场推广的IBM(中国)有限公司了,如今银行连大型机也要干掉了,它又能持续多久呢?
一个时代真的落幕了。
全文完,觉得不错的话点个赞吧。
贴主:gonewithsmoke于2025_04_14 8:33:52编辑
喜欢gonewithsmoke朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。
打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮
楼主本月热帖推荐:
>>>查看更多帖主社区动态...