金怡濂 刷新中国“计算”速度

来源:《科学家精神·创新篇》      日期:2022-04-18

金怡濂(1929年9月—),计算机专家,中国工程院院士。参加了我国第一台通用大型电子计算机研制。20世纪90年代,出任“神威”超级计算机总设计师,领导研制成功两代具有世界先进水平的超级计算机,实现了我国计算机领域的历史性跨越。曾获全国科学大会奖、国家科学技术进步奖特等奖2次、国家科学技术进步奖一等奖1次,2003年获国家最高科学技术奖。

image.png


1958年年底,金怡濂带着学到的计算机知识,踏上回国的列车。归途中的最后一个早晨,火车行驶在茫茫的东北平原上,金怡濂看到跃升在黑土地上的朝阳光芒四射,心中充满豪情。那时的他无法预知,计算机将会怎样深刻地改变这个世界,而他也深刻地改变了中国计算机的命运。

大胆选择,迈进晶体管时代

金怡濂学成回国后,被安排到中国科学院计算所,参与我国第一台大型计算机104机的研制,他主攻的运算控制部分被称为计算机的大脑和心脏。此后,1959—1962年,他所在的研究所,成功自行研制出第一台电子管计算机,并连续研制了4种电子管计算机,实现了计算技术和性能的稳步提升。

然而,胜利的喜悦在时代浪潮的冲击下并没有维持多久。电子管计算机的问题很快暴露出来:耗电量大,稳定性差,常常由于电子管故障而死机。世界上第一台电子计算机ENIAC,每秒运算5000次,却使用了18800个电子管,占地170平方米,重达30吨,简直是庞然大物,使用起来非常不便。

晶体管的发明,为这一切带来了转机。

1962年,金怡濂在广州参加广交会,进行晶体管计算机研制器材的选型。用晶体管取代计算机中的电子管,造出来的晶体管计算机体积小,耗电少,成本低,逻辑功能强,可靠性更高。而计算机中多道程序、并行操作、中断系统的诞生,操作系统、高级语言的出现,这些都使得晶体管计算机的使用更方便、更有效,应用领域更加广泛。

金怡濂在广州待了两个多星期,发现了许多新问题:当时国内的晶体管生产还处在试制阶段,性能不够稳定。但国外普遍使用的高频晶体管不仅价格昂贵,而且属于西方禁运的科技产品。通过反复比较权衡,金怡濂做出了选择——使用低频晶体管。

要想低频管实现高频管的效果,就要解决抗饱和的问题,这是一个很大的困难,但金怡濂相信,这些问题都是可以解决的。在晶体管计算机的运算控制部分,金怡濂主持研制了穿通进位链加法器——这项在国外采用高频晶体管的技术,我国创造性地用廉价的低频晶体管取得了加法器的高速度。

由于设计方案完备和生产质量良好,机器的调试工作非常顺利,最终运算速度达到了每秒16万次。速度快,内存容量大,指令系统完善,采用多道控制,算题能力显著提高。半导体元件的采用,也使运转更加稳定可靠,消耗的功率更小。它的研制成功,标志着研究所在技术上完成了电子管时代向晶体管时代的跨越。

并行之路,跨出巨型机三大步

1969年5月24日,周恩来总理在一份关于研制九〇五乙机的立项申请报告上批示:“照办。如可能,争取更快一点。”在这台机器的研发过程中,金怡濂随后被确定为整机主要技术负责人。

九〇五乙机所用的元件是上海冶金所研制的小规模集成电路。虽然都经过了严格检验,可靠性大大提高。但存在着不可忽视的问题是,机器的规模大,那么元件、部件的用量必然很多,该如何解决失效率的问题呢?机器的逻辑比较复杂,查找和排除故障需要一定时间,如果整体结构是一个不可分割的“实体”,那某个元件出现问题,岂不是要全机停机检修?该如何避免这种损失呢?

经过一段时间的研究和构思,金怡濂提出了一个全新的总体方案:采用双处理器体系结构,以双机并行来提高机器的速度和稳定性,弥补元器件可靠性差的不足。同时,也要实现双机各自独立运行来提高机器的可维性。

在进行结构和功能设计的时候,金怡濂团队突出了以下几个方面的特性:一是积木化,机器的每一部分都可以联机工作,也可以脱机检修;二是多重化,机器的每一部分都是多重的,以保证任一部分脱机检修时,不影响整个系统的正常工作;三是重新组合,任何部分出现故障需要检修,要能迅速地切除故障部分,进行重新组合,立即投入工作;四是检误与恢复,要求机器对错误能迅速地检出并恢复,减少错误的影响。1976年12月,九〇五乙机终于圆满完成了调试工作,它的运算速度达到每秒350万次。

并行处理的这一突破,对我国的巨型计算机研制产生了极其深刻的影响。双机并行成功之后,该团队紧接着开启了张效祥提出的“群机”并行之路。

1986年5月,国内第一台标量巨型计算机——九〇五工程亿次机宣告研制成功。在体系研制过程中,金怡濂运用Markov链随机过程方法,分析了主存供数矛盾,提出了总线与交叉开关相结合的混合互联网络方案,解决多机系统中互联拓扑结构的难题。最终确定并实现了由18台高速处理机组成的复式模块化结构的多处理机系统,这样既保证了运算速度,又提高了系统的可靠性、可用性、可维性。

在九〇五工程亿次机即将出机之时,新一代机型也在酝酿着。在开展10亿次总体方案的研究中,金怡濂想,如果延续上一台亿次机的技术路线,继续用中小规模器件,自行研制CPU,要做成这么大规模的并行机,在技术上几乎无法实现。正当此时,国际上32位微机芯片面市,他抓住机遇,提出具有决定性作用的意见:采用国际通用的32位处理器芯片,向大规模并行计算机发展,使我国巨型计算机技术迈入了世界先进行列。

1991年年底,我国第一台10亿次巨型计算机系统研制成功,中国在这一技术领域进入了与国际同步发展的崭新时代。从双机并行到群机并行,再到大规模并行,中国巨型计算机研制10年间迈出了三大步。

创新“神威”,开启“世界速度”

随着国家并行计算机工程技术研制中心的成立,新一代巨型计算机“神威”立项申请提上了日程。经过好几个回合的研究讨论,各方专家最终达成共识:拿出勇气和胆识,实现中国巨型计算机跨越式发展,从而确定了研制千亿次计算机系统的总体目标。金怡濂被任命为总设计师,这一年,他已经年过花甲。

在完成亿次机、10亿次两台巨型计算机后,金怡濂听到许多用户反映,希望把局部存储器做大,以缩短访存时间。因此,在着手“神威”技术方案时他就考虑,可不可以把局部存储器做得尽可能大,缩小甚至取消主存,同时又让局存中的数据可以比较方便地共享呢?

金怡濂脑子里逐渐形成了方案雏形:进行“分布共享存储”。这种技术,就像今天我们所生活的城市,每一个小区的边上,都建一个超市,日常用品可以就近购买,而附近买不到的东西,也可以到别的超市去买。研制这种体系结构的大规模并行机,就要解决另一个难题:如何管理这些物理上分布、逻辑上共享的存储器呢?

有一次,在翻阅资料的过程中,金怡濂看到一张Touch Stone的平面格栅网体系结构示意图。他灵光一闪:“分布共享存储”加平面格栅网的互联技术,处理器速度快与机器规模大、访问存取速度慢之间的矛盾,就好解决了呀!所谓平面格栅网,就是一个网格状的互联网络,其中以路由器为结点,而路由器有一个出口,可以随意连接处理器或者外部设备。这种特别的构造,打破了传统的存储转发形式,以虫孔寻径的形式进行流水传送,缩短了延迟时间,加快了传送速度。

金怡濂精心为“神威”制定了以平面格栅网为基础的“分布共享存储器大规模并行结构”。这个富有想象力和探索性的总体思路,使巨型计算机由10亿次直接攀升至千亿次成为可能。

1996年9月下旬的一天,秋风送爽、天高云淡,仿佛在为一个动人的时刻做铺垫。子夜时分,“神威”机最后一块插件板,被小心翼翼地插进了机舱,绿色指示灯瞬间亮了。这一刻,“神威”的运算速度达到每秒3840亿次浮点结果,一台在中国计算机发展史上最具有划时代意义的巨型计算机完成了!

在“神威”进入世界先进行列后,广大科研人员没有丝毫懈怠。金怡濂又带领他的团队向世界最先进水平发起了又一轮冲击——“神威Ⅱ”。在综合国际上高性能计算先进设计的基础上,金怡濂提出了一个总体创新构想:以超三维格栅网为基础的可扩展共享存储体系结构与消息传送机制相结合。

完美的“神威Ⅱ”,是完美设计和完美制造的集合。于是许多创新源于此,许多困难也源于此。金怡濂预见到这种超大规模系统对系统的散热有很高的要求,为了降低CPU的内部结温,他大胆地提出突破液冷的技术难题。

可是,一台以“电”为生命源的机器,怎么才能与“水”和平相处呢?液冷系统的基本设计思路是把水冷机组提供的冷却水以恒压输送到每一块与插件板完全吻合的冷却板上,确保插件板及所有部件的内部结温保持在55℃以下。期间,要保证冷却水管在使用期间安全可靠、畅通无阻,所有的接口严丝合缝、滴水不漏。

历经重重困难,2001年年底,“神威Ⅱ”计算机系统沐浴着新世纪的晨光终于问世了。它的运行速度达到每秒13.1万亿次,经过Linpack测试,系统效率达到75%以上,超过当时世界上排名第一的高性能计算机58.8%的效率指标。以两代“神威”机为标志,我国计算机事业开启了以“世界速度”奔跑的崭新纪元。

2011年10月27日,一台以“神威·蓝光”命名的国产高性能计算机成为各大媒体报道的热点。美国《纽约时报》相关报道对它“复杂的液冷系统”特别感兴趣,其引用了Convey超级计算公司首席科学家史蒂文·沃勒克的评价:“用好这种冷却技术非常、非常困难。因此,我认为,这是一项认真的设计。这种冷却技术有可能扩展至百万万亿级的超级计算机。”而这套“复杂的液冷系统”,正是由金怡濂带着科研团队设计完成并成功实现的。

2013年,中国计算机学会将2012CCF终身成就奖授予金怡濂,以表彰他为我国计算机事业的创建、开拓、发展做出的卓越贡献。金怡濂也决意“活到老学到老”,一直力所能及地为推动高性能计算机领域的自主创新呼吁呐喊。他在各种场合表示,“应当强调自主创新,在此基础上加快国际合作,要牢记核心技术是花钱也买不来的”。

(摘编自《金怡濂传》,赵建国,航空工业出版社、人民出版社,2015年。由吴瑾欣整理)