省报告文学学会您现在的位置是:湖南作家网>湖南省作家协会>文学学会>省报告文学学会

龚盛辉:决战崛起——中国超算强国之路(节选)

来源:   时间 : 2016-05-30

 

分享到:

  超级计算:高科技之“上甘岭”

 

  对于超级计算在国家昌盛、民族崛起中的地位作用,有人形象生动地说:“高科技竞争是没有硝烟的战场,超级计算是这个战场上的上甘岭。”

  2005年,美国总统向属下的信息技术咨询委员会咨询这一问题时,该委员会则这样回答:“计算科学是确保美国21世纪战略地位的重要手段,而超级计算机是实现计算科学的最重要的载体。”

  随着人类认识的不断拓展和深化,尤其是现代大科学、大工程、大数据的出现,以超级计算机为平台的超级计算,在科技发展领域,已渐渐与科学理论、科学实验“并肩而立”,成为“支撑现代科技大厦三大支柱”之一,是国家科技竞争力的重要标志。

  在当今时代,从事关国家安全的战略领域研究,到人们日常生活条件的改善,都离不开超算技术的支撑。可以说,在现代社会,没有哪一个学科像超级计算这样在科学研究中运用如此广泛、如此深入、如此前沿。正如国家超算天津中心主任刘光明所说:“超级计算机算天、算地、算人,算过去、算现在、算未来……运用超算给大地做CT,可以又快又准地找到石油;运用超算分析人类基因,能够解读生命的奥秘;运用超算做风洞,设计的飞机可以飞得更快、更高、更省油……”

  超级计算,现已走进各行各业、千家万户,人们的衣、食、住、行、乐,无时无刻不在分享着超级计算算出的“红利”。比如食品,运用超级计算机进行以水稻、玉米、生猪等为主要对象的基因工程研究,让粮食产量更高、味道更美、营养更丰富,使生猪长得更快、肉质更好、更有利于人类健康……,比如治病,超级计算让各种新药研制周期从数年甚至上十年缩短到一年以内甚至几个月,让需要化疗、放疗的癌症病人的基因检测过程由一两个月缩短为几分钟……,比如天气预报,超级计算能在几秒内算出未来一周天气情况,在一天内完成过去几年甚至几十年完成的计算工作,甚至可以预测地震、海啸等自然灾害……,比如娱乐,人们直呼“酷极”“过瘾”的美国电影《阿凡达》《生化危机2》以及国产电影《关云长》、新版电视剧《西游记》等影视剧精彩绝伦的动漫渲染,都是依靠超级计算完成的……

  目前,有赖于超级计算机解决的挑战性问题,如汽车、飞机、轮船制造如何改善空气/流体动力学结构、减少燃料消耗和噪音、提高防撞强度和乘坐舒适度;防范和减轻气候变化带来的破坏;帮助人类寻找疾病治疗的革命性方法;通过预警降低地震造成的生命和财产损失;地球物理学中的大数据处理与模拟;对天体演变进行建模和理论试验;模拟影响社会健康和安全事件及寻找应对措施和规划;发现高经济价值的物质及其反应;寻找人类活动、社会发展规律……,这些问题涉及交通工具制造、气象预报、生物信息、地震监测、地球科学、天体物理、公共健康、材料科学、人类/组织系统研究等众多学科,几乎涵盖科学研究的每一个领域和社会生活的方方面面。

  换言之,当今时代离开了超级计算,人类对高精尖科学问题的探索将举步维艰,甚至寸步难行!

  超级计算机,是名副其实的“国之重器”“高科技之上甘岭”!

  60年前,我志愿军将士不畏强敌,在朝鲜上甘岭地区与以美国为代表的联合国军展开生死决战。60年后,我国科技尖兵以大无畏英雄气概,又与以美国为代表的西方国家在超级计算机领域打响了“上甘岭战役”。

  这场科技战役,一如当年上甘岭决战,亦是一次实力悬殊、极不平等的较量!

  1946年2月14日,美国宾夕法尼亚大学教授莫奇利、讲师埃克特和现代计算机理论奠基人冯·诺依曼举起香槟酒,庆贺他们研制成功世界上第一台电子数字计算机时,中国的统治者蒋介石刚刚向他的爱将杜聿明下达了向中国共产党东北民主联军发起进攻的命令,内战进入白热化阶段。此后十年,中国的计算机工程又迟迟未能上马。由此可见,中国对这一后来改变整个人类生活的新兴科技的探索起步有多晚、差距有多大。

  但新中国有一支“胸怀祖国、志在高峰、团结协作、顽强拼搏”的计算机科技攻关队伍——银河团队。他们不畏强国重重封锁、层层压制,躬身冲刺,奋起直追,先后研制出中国第一台电子管专用计算机、第一台晶体管通用计算机、第一台每秒百万次计算机、第一台每秒亿次向量巨型机、第一台每秒10亿次并行巨型机、第一台每秒100亿次超大规模并行巨型机……,创造了“中国芯”“中国麒麟”“中国第一网”等科学奇迹,发展壮大为“中国第一超算团队”。

  21世纪初,随着每秒100万亿次超级计算机技术高峰被成功攻克,人类对超级计算机技术的探索,面临着一系列难以逾越的关键技术“高墙”,这意味着世界各国对新一代超级计算机的攻坚站在了同一起跑线上。

  银河团队抓住这一历史机遇,果断与世界强国展开决战,发起了超级计算机领域的“上甘岭战役”,率先突破新一代超级计算机主流技术——CPU+GPU异构融合体系结构技术。

  我军英雄将士在上甘岭不畏牺牲、浴血奋战,打出了军威,打出了国威。

  中国科技尖兵在世界超级计算机领域打响的“上甘岭战役”,也打出了“中国自豪”“中国骄傲”:

  “天河一号”二期系统,2010年成功登上世界超级计算机排名冠军宝座,中国自鸦片战争以来第一次走上世界科技竞赛最高领奖台!

  “天河二号”,自2013年问世后,已连续5次蝉联世界超级计算机排名冠军,标志着中国在超级计算机领域已走在世界前列!

 

  决战时机

 

  随着21世纪之门向人类徐徐开启,“并行计算时代”开始遭遇“寒流”。这股“寒流”的显著标志,就是单芯片性能提升受到制备工艺限制而大大放缓。也就是说,科学家们提高超级计算机系统的整体性能,只能依赖于加大系统规模。这样一来,系统性能在突破每秒千万亿次后,就会出现一系列难以逾越的“高墙”:

  比如体积,它将有几个足球场那么大。

  比如功耗,需要建一个专用的发电站,才能满足它的功耗。

  以日本“地球模拟器”为例。日本NEC公司于2004年6月推出的这台机器,虽然峰值性能达到35.86TFLOPS,一度抢占国际TOP500排名第一。但它采用了5120个定制向量处理器,功耗高达12MW,其机房共有四层,机器存放在四楼,三楼布置了上百公里长的铜质电缆用于全局互连,二楼是空调房,一楼则是电力房,这样布局的原因是由于它功耗太大。虽然“地球模拟器”在可编程性和系统实用效率方面有所变革,但其极高的功耗和硬件成本,使得该机器成为迈向高效能计算的反面典型。

  随着体积急剧膨胀、功耗迅猛攀升,还出现了并行算法设计困难、通信存储带宽不足、运行维护成本大大增加、系统可靠性差、安全性能低……

  这一个个问题,都是难以攻克的技术瓶颈。

  超级计算机技术再跨越,需要新的体系结构理论来支撑。超级计算机纯粹CPU超大规模并行计算技术路线,开始步入“冰封”时期。

  这意味着在高性能计算机新的技术高峰面前,中国等发展中国家的超级计算机发展,和美、日等发达国家都处于同一起跑线,我国在超级计算机领域决战决胜、冲击“珠峰”的时机已经来临!

  为超级计算机技术“破冰”的东风是什么?

  超级计算机发展之路在何方?

  在超级计算机技术发展的十字路口,有人在期待,有人在徘徊,有人在观望,更多的人在躬身探索。

  国防科技大学计算机学院大楼旁的银河广场上,一名身材魁梧、浓眉大眼、气宇轩昂的中年军人,时而慢慢踱步,时而驻足沉思,时而抬头仰望一眼广袤的太空。

  他就是银河系列超级计算机总设计师杨学军教授。

  杨学军手上夹着香烟,一口接一口地抽着,一支接一支地点着。他的思绪,随着缓缓吐出的烟雾,袅袅地飘向太空,飘向世界,飘向深邃的历史……

  在人类计算机发展史上,无论电子管计算机时代、晶体管计算机时代、集成电路计算机时代、向量计算机时代、并行计算机时代,还是大规模、超大规模并行计算机时代,为什么美国都能成为世界领跑者?

  稍微留心考察一下便会发现,美国不仅研制成功世界上第一台计算机,而且在此后60多年几乎独占了计算机重大基础创新或理论创新成果。电子管、晶体管、集成电路、芯片等计算机元器件,还有向量计算、并行计算、大规模并行计算等计算机总体结构理论,特别是曾给人们对并行计算认识带来三次飞跃的三个公式:计算性能加速比公式、Gustafson加速比公式、计算机效能模型框架,无一不是美国科学家的发明。这一个个首创产生的推动力,加上日益增长的计算机应用需求的牵引力,让美国计算机技术开创了一个个“新纪元”“新时代”,也一次次把美国推向世界计算机发展乃至整个世界科技的先锋潮头。

  科技首创,尤其是重大基础技术、基础理论首创,是科技发展和经济发展的强大引擎。在它的牵引下,英国在18世纪开启了近代工业革命,美国在19世纪初实现了经济强势崛起,德国、日本在战后迅速医治战败创伤,重新跻身世界经济强国……

  新中国成立尤其是改革开放后,国家重视科学事业,技术进步日新月异。但其源头动力大部分来自引进,或是引进后再创新,真正的技术首创,特别是引领世界科学前沿、支撑国家产业变革的重大基础技术、基础理论首创,与美国、日本及欧洲发达国家相比,依然“凤毛麟角”。

  中国超级计算机技术发展始终处于“跟踪”“追随”状态,总是比别人慢那么“一点点”的原因,也正是因为首创不足。

  唯有突破首创性瓶颈,才能从制造大国迈向创造大国,才能真正实现中华民族的伟大复兴!

  中国要在超级计算机技术领域由“跟踪”“追随”变为“超越”“领跑”,必须在重大基础技术、基础理论上另辟蹊径,在别人尚未涉足的荒草地上闯出一条新路!

  在世界超级计算机技术发展面临困境之时,中国计算机科学家有责任、有义务为国家乃至为世界科技进步作出应有的贡献!

  中国首次与世界首创

  什么样的体系结构可以破除超大规模并行超级计算机面临的“高大难”(功耗高、体积大、技术实现难)窘境呢?

  经过一番苦心思索、反复论证,杨学军在世界上最早提出异构融合体系结构技术。

  所谓异构融合体系结构,就是在计算结点中包含两种不同类型的处理器。一种是传统通用处理器(CPU),用来处理常规任务,另一种是专用定制处理器,用来处理特定算法,这种处理器经过特别设计,处理特定算法时性能非常高,可以大大提升计算结点的整体性能。

  可什么样的处理器能充当专用处理器、完成特定算法的使命呢?

  这时,美国斯坦福大学计算机系主任的Bill Dally提出的一种流处理器Imagine进入了杨学军的视野。他凭着深厚的学术底蕴和多年率团攻关的实践经验,敏锐地意识到这种有着计算与访存分离、显式开发局部性等诸多创新思想的流处理器Imagine,是一种很有前景的体系结构。他打算把它与CPU一起用于超级计算机。

  可流处理器Imagine仅仅是一款研究性的原型芯片,一般也只用来处理流媒体相关的计算任务,究竟能不能用来处理科学与工程计算,还是个谜。

  为找到这个谜底,2006年,杨学军带领由自己学生组成的流处理器小组及硬件、软件设计团队,向用于科学计算流处理技术展开攻关。

  将流处理器与科学计算隔离开来的关键技术难题主要有三个:如何设计世界上第一款面向科学计算的64位流处理器?如何在这个流处理器上重写或改写应用程序?如何将这些应用程序高效地映射到处理器上执行?

  这些问号,拽着杨学军及其团队成员的思绪快速且不停歇地运转起来。

  身兼行政领导、型号总师等数职的杨学军,无论工作有多忙,每周都要抽出两天时间与大家交流讨论学术问题,而且常常因此错过吃饭时间。这时他就自掏腰包给大家改善伙食,在饭桌上边吃边继续讨论课题,经常有意想不到的收获。

  平时,杨学军和团队成员身上都带着两块手机电池。一旦有新发现,就打电话交流讨论,常常一打就是一两个小时,打到两块电池都没电,打得手机烫耳朵。

  他们成功突破了体系结构设计、程序可流化理论构建、异构编程模型设计等一道道技术“高墙”,验证了流处理器用于高性能计算的可行性,提出了可用于科学与工程计算的64位流处理器FT64,并成功应用于大规模并行系统的构建。

  这些研究成果,是名副其实的世界首创!

  2007年6月,杨学军带领团队完成的流处理器研究论文《64位流处理器体系结构研究》,发表在国际计算机系统结构年会(ISCA)上,并被国际权威期刊《IEEE Transactions on Parallel and Distributed Systems》录取。该论文介绍了国防科技大学自主设计的面向科学计算的64位流处理器和其编程方法。IEEE TPDS 2009期刊转载该论文时,团队又扩充了基于依赖关系的流化理论,流编译优化方法,以及扩充实验数据和结果。

  这是国际计算机系统结构年会(ISCA)录取的第一篇来自中国研究机构、由中国学者独立完成的学术论文,也是计算机发展史上第一个由中国人提出的体系结构理论。

  论文发表后,在国内外计算机领域引起轰动。

  流处理器技术先驱、美国斯坦福大学计算机系主任William Dally认为:“该论文在面向科学计算的硬件设计上和编程方法的研究上为流处理器的发展取得了重要的进步。”

  美国艺术与科学学院院士、美国工程院院士、NVIDIA公司首席科学家、原Stanford大学计算机系主任Bill Dally称赞:“该论文实现了世界上第一款用于科学计算的流处理器。”

  美国Wisconsin—Madison大学和Texas大学的学者在体系结构领域顶级会议MICRO’2008上发表文章,称杨学军关于流处理器研究论文“描述了一个面向科学计算应用的可扩展的流处理器”。

  CPU与64位流处理器异构融合体系结构,为世界超级计算机技术突破“冰封期”提供了崭新的思路。

 

  “走鹃”打响决战第一枪

 

  杨学军的《64位流处理器体系结构研究》发表一年后,即2008年6月18日,美国突然宣布:IBM公司采用异构融合体系结构技术成功研制出一台峰值速度每秒1.37578千万亿次,Linpack测试性每秒1.026千万亿次的机器,并将其命名为“走鹃”。

  “走鹃”由6480个AMD的Opteron处理器和12960个IBM cell处理器构成,其中cell处理器就是一种专用处理器,它的计算性能非常高。“走鹃”充分体现了异构并行技术的先进性,不仅大幅提高了单个计算结点的性能,并大大降低了功耗,整个系统的规模也得到大幅缩减。

  举个例子,当时和“走鹃”同处于国际TOP500排行榜前20名、位于美国劳伦斯国家实验室的BlueGene/L拥有65536个结点,IMB公司的另一台BlueGene/P系统有73728个结点,而“走鹃”则只有3240个结点,只有前两个系统的1/20。这得益于采用了cell加速器,使得“走鹃”单结点性能高达425GFlops,而BuleGene/L和BlueGene/P分别只有7.3和13Gflops。如此大幅度的结点规模缩减,使通信、存储、编程、功耗等技术瓶颈一下子放宽了。

  “走鹃”的巨大技术优势,引起了学术界和产业界研究异构融合计算的热潮。

  “走鹃”在异构融合体系结构技术领域的捷足先登,打响了新一轮决战的第一枪,世界强国在超级计算机领域的较量正式拉开序幕!

  21世纪的中国,别无选择,唯有接招,准备决战!

  党的十六大向全党、全国人民发出“建设创新型国家”伟大号召。

  “东方雄狮”自从1949年站立起来,开始健步走向世界,尤其是1978年改革开放后,国家经济高速发展,21世纪初国家经济总量成功超越日本,成为世界第二大经济体,并继续保持快速发展态势,向世界经济霸主美国逼近。与此同时,国防、军队现代化信息化建设快马加鞭、突飞猛进。可以说,人民实现中华民族复兴的愿望,从未像现在这样急切,时机也从未像现在这样成熟。

  国家从“制造大国”向“创造王国”的飞跃、科技强军的崇高使命、民族崛起的伟大梦想,急需高性能计算这个宽阔坚实的现代化平台提供强大支撑、强力承载!

  在超级计算机技术这个没有硝烟的战场上,中国人已经被别人包围得太久,忍受了太多的憋屈。东方巨龙期待腾飞!中国超级计算机事业必须跨越!

  2007年初,中共中央总书记、国家主席、中央军委主席胡锦涛闻知国防科技大学研制出新一代超级计算机后批示:“希望同志们进一步增强攀登世界科技高峰的信心和勇气,不断提高自主创新能力,努力在若干重要领域掌握一批核心技术,为推进科技强军、建设创新型国家作出新的更大贡献!”

  党中央的嘱托,就是命令!就是使命!

  面对世界强国咄咄逼人的攻势,以杨学军为代表的国防科技大学计算机人,沉着应对,大胆迎战。通过科学审时度势,他们认为国防科技大学计算机学院的超级计算机事业,通过银河人半个世纪前仆后继的艰辛努力,占领了一座座科技高峰,形成了自己的特色,拥有了厚实的积累,不仅掌握了下一代巨型主流技术——异构融合体系结构核心技术,而且与世界强国展开决战、抢占世界高峰的其他支撑技术条件也开始显现。

 

  超越之径

 

  2006年,国家推出“863”项目——“高速计算机及网格服务环境”建设,制定了“先研制两台每秒百万亿次超级计算机、再研制一台每秒千万亿次超级计算机”的“两步走”战略。

  我国著名计算机制造商曙光公司、联想公司启动“曙光500A”“深腾7000”两台每秒百万亿次机攻坚之时,刚刚研制完成每秒10万亿次超级计算机的国防科技大学计算机技术创新团队不等、不靠上级下达任务,主动把目光瞄准每秒千万亿次超级计算机,开始向这一目标发起冲刺。

  2007年召开的党的十七大指出,要提高自主创新能力,建设创新型国家,加快建设国家创新体系,把掌握信息产业核心技术作为发展我国科技战略重点,并作出“建立和完善军民结合、寓军于民的武器装备科研生产体系、军队人才培养体系和军队保障体系,走出一条中国特色军民融合式发展路子”的战略决策。

  这年底,胡锦涛总书记在天津考察时提出,滨海新区要努力在贯彻落实科学发展观、推动经济社会又好又快发展方面走在全国前列,在保障和改善民生、促进社会和谐方面走在全国前列,成为深入贯彻落实科学发展观的排头兵。

  为落实党中央、胡锦涛总书记号召,天津市委市政府提出,滨海新区要充分发挥引擎作用、示范作用、服务作用、门户作用、带头作用,坚持改革开放带动、科技创新引领、高端产业支撑、服务能力提升、发展环境保障,走出一条科学发展、和谐发展、率先发展之路。

  与此同时,国防科技大学党委在深入学习党十七大精神时认识到,学校具备较强的办学实力,承担了一大批国防科研任务,取得了许多科研成果,有着较强的科技与人才优势,理应为建设创新型国家作出更大贡献,理应率先走开军民融合之路,为推动地方经济建设提供更大技术支持、人才支撑。

  同样的目标、共同的愿望,将国防科技大学与天津滨海新区紧紧联结在一起。双方通过友好协商,于2007年2月签署了全面科技合作协议。

  双方着眼国家重大战略需求,充分发挥天津市滨海新区作为国家综合配套改革试验区的政策和资源优势,充分发挥国防科技大学的科技和人才优势,加大合作力度,加快科技创新和成果转化基地建设,积极争取重大科技项目和国际前沿项目,大力提高自主创新能力,加快科技成果转化步伐,实现互利共赢,在共同推进创新型国家、信息化军队建设中实现共同发展。

  双方认为,超算技术是关系国家安全和发展的高科技前沿技术,是国家经济、国防与科技实力的重要象征,应集中两家单位优势资源,为国家抢占超级计算机战略技术制高点作贡献。

  为此,国防科技大学和天津共同启动“国家滨海超级计算中心”建设项目。通过联合承担“千万亿次高效能计算系统”研制,把该中心建成国家高性能计算应用研发中心、大规模集成电路中心和基础软件工程中心,实现超算服务、技术研发、人才培养“三位一体”的信息产业集群。

  不久,国防科技大学和天津滨海新区的创新之举得到国家大力支持。国家“863”把“千万亿次高效能计算系统”列为重大专项。同时,“高性能通用微处理器”“高端服务器操作系统”也被纳入国家“核高基”重大专项。

  进攻目标锁定后,攻击路线就是关键。

  两年前,杨学军带领大伙探讨64位流处理器Imagine时,他的脑海里就同时思考着另一种与之有着异曲同工之妙的电子芯片——GPU的科学计算问题。也就是说,研制每秒千万亿次超级计算机可走既定的CPU+64位流处理器Imagine异构融合技术路线、也可尝试CPU(通用微处理器)+GPU(专用微处理器)异构融合技术路线。

  对于前者,团队已攻关多年,有着比较雄厚的技术积累,成功可能性比较大。而对后者,当时国际上公认GPU最高计算效能仅为20%,根本不可能用于研制超级计算机。

  但使用GPU构建超级计算机的优势显而易见:它运算速度快,比CPU高出6倍,能有效缩小机器空间;它能耗低,仅有CPU的五分之一,可有效解决超级计算机高能耗短板;它在市场上流通的品种很多,可供选择性大,而且技术成熟;它价格便宜,可有效提高机器的性价比,让用户用得起……

  而将GPU用于超级计算机研制的劣势,同样不容忽视:它能否用于高性能计算机,还是个未知数,探索之路将非常艰难,而且风险很大。

  以杨学军为总设计师的总师组,经过深入技术调研、反复权衡利弊,决定大胆尝试CPU+GPU异构融合技术之路。

  从每秒10万亿次直接冲刺每秒1000万亿次,走别人没有走过的CPU+GPU技术路线,他们的这一超常决策,在业内引起一片哗然。

  “研制超级计算机一般都以10倍速度逐步递增,这已成为国际贯例。从每秒10万亿次直接向每秒1000万亿次跨越,这一步是不是迈得大了点?能跨过去吗?”

  “就是把机器做出来了,应用水平能跟上吗?”

  “GPU能否用于高性能计算还是个谜,用它研制超级计算机,这是不是太冒险了?”

  ……

  面对沸沸扬扬的疑问,杨学军率领的总师组认为,两步并作一步走的事,虽然国际上少有,但对银河人来说却并不是什么新鲜事。当年慈云桂带领大家研制“远望一号”远洋测量船中心计算机时,不也是从每秒万次直接向每秒100万次冲刺的嘛。当今世界,超级计算机每10年性能提升1000倍,在此情况下,若按照所谓“惯例”,按部就班、亦步亦趋,只能永远处于“跟班”“借鉴”“仰人鼻息”的被动局面。只有从荆棘丛中、险关狭隘另辟蹊径,才能杀出重围,率先“登顶”。至于用于图像处理的GPU能否用于科学计算,杨学军坚定地认为,凭着团队数十年超级计算机教学科研积淀的厚实底蕴,和对64位流处理器研究取得的创新成果、技术基础,定能触类旁通,攻克GPU计算效能这一世界难题。

  国防科技大学党委积极支持他们的跨越壮举,向创新团队发出了“我们的胸怀有多宽,我们的事业就有多大”的动员令,鼓励大家确立决战决心,坚定决胜信心。

  以邹鹏为院长、周建设为政委的学院领导班子,在学校党委领导下,根据任务需求,把学院高性能计算、高性能微处理、基础软件、网络技术、应用技术等国家创新团队进行有机组合,编成了一支超级计算机创新“航母舰队”。

  动员大会上,学院党委书记、政委周建设掷地有声地说:“我们银河团队,从来就是一支勇于拼搏、敢于担当的团队,为国家振兴、为民族崛起、为军队现代化,要敢走别人没有走过的路,勇于从艰难险阻中闯出一条新路。我们学院党委永远都是大家的坚强后盾。成功了,荣誉属于国家、属于人民军队、属于你们!失败了,责任由院党委负,由我这个党委书记负!”

  带着国家重托、民族期望,国防科技大学超级计算机创新“航母编队”,浩浩荡荡向着新的技术彼岸进发!

 

  撕开突破口

 

  CPU+GPU异构融合体系结构,形象地说,就是把众多CPU、GPU有机地连成一枚“捆绑式火箭”( CPU相当于主改动机、GPU相当于助推改动机)。

  根据这一原理,总师组创造性地把超级计算机系统分为计算机阵列、加速阵列、服务阵列,通过CPU、GPU异构协同计算,最大限度地提高计算效能、降低能耗、减少费用、加快速度。

  这一技术路线的最大创新,就是将用于图像处理的GPU运用于高性能计算,最大的挑战就是实现GPU高效能计算。它成为阻挡每秒千万亿次超级计算机战役进展的第一个“堡垒”。

  2008年底,以杨学军为总设计师的总师组,把撕开“突破口”的重任交给杨灿群和他带领的突击队。

  经过10余年科研实践历练的杨灿群,对于自己的工作有个非常精妙的比喻:“搞工程技术,就像猜谜语。谜底出来了,大家恍然大悟:‘原来并不深奥’,可在此之前,你的眼前却是一片云山雾海,你不知道目标在哪里,甚至不知道该朝哪个方向寻找,可以说两眼迷茫。”

  GPU的科学计算问题便是这样一道谜语。

  当时,市场上宣称有通用计算能力的GPU有两种,分别由NVIDIA与AMD生产,每种GPU都有多个型号。单独的GPU只是一颗芯片,需要和配套的存储器及外围电路构成显卡才能使用,生产此类显卡的厂商有好几家,市场上可购买的计算显卡就有近20种。这林林总总的显卡中,哪款能满足科学计算要求?杨灿群和突击队员两眼一抹黑。

  为从这众多显卡中找到双精度浮点计算性能高、系统兼容性好、运行稳定的显卡,杨灿群带领突击队从2009年初开始夜以继日地进行大海捞针般的筛选工作。

  春节前一周,他们把一种显卡安装到一款主机板上测试,但软件系统安装完成后,系统无法启动。他们首先怀疑是硬件问题,但硬件技术人员坚称该主板质量非常过硬。他们便从软件找原因,但尝试不同版本操作系统和显卡驱动后,问题依然如故。为了找到问题症结,他们在春节期间加班加点。大年初四那天,他们不经意间在主板上发现有个模糊标识,称该主板有启动异常故障,维修后也没有确认故障是否彻底解决,弄得大家哭笑不得。

  还有一种显卡含两个GPU芯片,其驱动程序要求接上两个显示器才能让两个GPU同时工作,这显然不能满足科学计算的要求,因为不可能在一台计算机里安装一大堆显示器。他们通过查阅资料发现,可在显卡输出接上电阻来模拟显示器。为找到这种电阻,他们从尘封了上十年的器件柜中找出了几个满足要求的插装电阻,解决了测试问题。

  ……

  两个月间,他们不知经历了多少这样的曲曲折折,才完成了近20款GPU的安装、测试,终于找到了满足计算条件的GPU。

  中国有一句谚语:“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝。”

  CPU+GPU异构融合体系结构,把数千个CPU、数千个GPU组合在一个“大庙”,它们还能卖力“挑水”吗?

  2009年3月,他们把CPU、GPU这两类“和尚”组合起来,利用GPU加速应用程序进行评测,竟发现总性能还不到每秒600亿次,而一颗CPU就有近每秒500亿次的性能。也就是说GPU这个“和尚”,虽然用于图像处理,速度惊人,但让它与CPU放在一块用于科学计算,就变得非常懒惰,计算效能只有20%左右。

  面对这样的测试结果,大家心里凉了半截。须知,凭着GPU这等工作效率要造出每秒千万亿次超级计算机,岂不是天方夜谭?难道真如外国专家断定的,GPU根本不能用于科学计算机吗?

  总设计师杨学军得到报告后,在第一时间赶到实验室。听完情况汇报后,他向身边的妻子招招手:“玉华,你去把车开来,带我出去转转。”

  这是他的工作习惯,每凡科研遇到难题时,就让妻子开车带他去兜风。

  “雪弗莱”驶出市区,奔驰在二环高速公路上。杨学军仰靠着座背,微闭着眼睛,让思绪随着从车旁呼啸而过的春风、扑面而来又疾速闪去的盎然春景,在科学的天地的盘旋……

  “雪弗莱”驶出高速收费站时,杨学军掏出手机,拨通了杨灿群的号码,坚定地说:“别人不敢走的路,并不等于走不通。从技术原理分析,GPU的计算性能,通过软件优化,是可以大幅提高的……”

  周建设来到实验给大家鼓劲:“发扬敢闯敢干、顽强拼搏的银河精神,冲破艰难险阻,创造银河事业新的辉煌!”

  学校召开每秒千万亿次超级计算机工程攻坚动员大会。学校、学院党委向大家发出号召:“勇敢地担当起国家和民族冲击世界超级计算机科技高峰的历史重任,在年底前坚决完成每秒千万亿次计算机攻关任务,让银河的凯歌在神州大地上奏响,让银河的光彩再一次闪亮寰球!”

  关键时刻,经学校党委推荐、中央军委主席胡锦涛任命廖湘科为计算机学院院长,同时兼任每秒千万亿次超级计算机工程总指挥和常务副总师。

  挫折面前,杨学军总师、廖湘科总指挥一商量,竟作出这样一个超常决策:把完成研制任务的时间节点,由原计划2010年底提前一年,即在2009年底前推出中国第一台每秒千万亿次超级计算机。

  决定一宣布,把一些人的眼睛惊得圆圆的:“关键技术尚未突破,还提前一年完成任务,能行吗?”

  可新一代银河人对自己充满自信:“当年研制‘银河—Ⅰ’时,困难还不大吗?可前辈们顽强拼搏,愣是提前一年完成任务。还有‘银河—Ⅲ’,原计划用五年,大家齐心协力,争分夺秒,仅用三年就实现了每秒10亿次到每秒100亿次的大跨越。前辈们能做到的,我们也一定能做到!”

  在杨学军、廖湘科率领下,国防科技大学超级计算机创新团队,拉开了每秒千万亿次超级计算机战役总攻的序幕。

  长沙北郊的湘江之畔,有一片群山环抱的洼地,山上草木郁郁葱葱,山下坐落着一栋三层小楼。这是长沙市抗洪指挥部所在地。由于汛期未至,这里鸟儿啁啾,人迹稀少,煞是幽静。

  杨灿群和他的突击队,把这里当作攻坚的战场。他们整天猫在小楼里,心里只想一件事,就是想方设法调动GPU这群“和尚”的积极性,让他们多“挑水”,争取“1+1”尽量接近“2”。眼睛也只盯着一个地方——显示屏,从那些不停滚动的浩如烟海的数据中,寻找一个个稍纵即逝的灵感,捕捉一次次优化GPU计算效能的机遇,然后对计算程序进行一遍又一遍的修改。

  那周,杨灿群与伙伴们和往常一样,从早上7点盯到午夜,从周一盯到周五,竟然没有发现一次战机,没有取得任何战果。

  连续鏖战数日,早已筋疲力尽的杨灿群,躺在床上辗转反侧,难以入眠。他于心不甘。往常从周一到周五,都能找到性能优化突破口,可在周末时间研究优化方法。那些数据犹如一群蜜蜂,在眼前不停地窜来窜去。闭上眼睛,满脑子还是那些波涛般滚动的数据。

  突然,他隐隐觉得眼帘上滚动的一些数据低于设计目标。他一骨碌从床上爬起来,从家里跑到办公室,打开与服务器相连的笔记本电脑,进入试验数据库,果然发现GPU一部分计算资源没有用起来。兴奋难抑的杨灿群,立刻着手程序优化,GPU计算性能又一次提升。当他改完程序起身打开房门时,只见太阳早已爬上山顶,露出了灿烂的笑脸,小鸟在树林里欢快舞蹈、清脆鸣唱。

  类似这样的优化改进,他们在两个月里进行了一万多次,终于把GPU计算效能提升到58%。

  这充分验证CPU+GPU异构融合技术是科学可行的!

  杨灿群带领突击队乘胜扩大战果,不分昼夜反复测试、研讨、改进。虽然每一次提升都如同滴水般微小,但把它们汇集起来,就能创造科学奇迹。在连续奋战四个月,先后改进优化8万余次之后GPU计算效能跃升至70%以上,达到世界最高水平!

 

  全线出击

 

  美国计算机天才西摩·克雷说:“可以造出一个速度快的CPU,却很难造出一个速度快的系统。”

  “世界巨型机之父”这句名言,在中国第一台每秒千万亿次超级计算机研制中再一次应验了。

  2009年7月,他们按照CPU+GPU体系结构技术构建了几个机柜的系统,结果试运行时发现,系统稳定运行时间很难超过半个小时。这是为什么?

  通过初步分析,大家认为问题还是出在GPU身上。GPU用于科学计算,除了计算效率问题外,还有一个相关技术非常重要,那就是GPU的稳定性。GPU用于图形处理,其计算负载与通用计算存在较大差异。尤其是GPU实际性能发挥出来后,各部件进入重负载状态,功耗提高,散热要求高,各器件的稳定性下降。当系统中使用的GPU数量多了,系统平均无故障时间也会随之下降。

  这个问题不解决,CPU+GPU异构融合之路同样是条“死胡同”。

  提高GPU工作稳定性问题,再次成为杨灿群和他的突击队亟待解开的新“谜语”。

  他们首先使用筛选法对众多GPU逐一进行压力测试,找出那些运行稳定的GPU。结果不理想,系统稳定性虽然有所提高,但与系统稳定性要求相去甚远。

  他们仿佛陷入了迷魂阵,四周迷雾茫茫,不知方向在哪里、出路在哪里。但他们始终坚信,黑夜再漫长,曙光总会出现。

  在艰苦探索中,“八一”节到了,单位组织会餐。杨灿群对战友们说:“走,喝两杯去,醒醒脑。”但到了餐桌上,到底喝了什么酒、吃了哪些菜,并没留下什么印象。因为在吃饭喝酒时,他们脑袋里依然转的是GPU工作稳定性问题。几个人一放下碗筷又直接回到机房,一头扎进浩如烟海的GPU技术资料里,苦苦寻找破解迷雾的那一缕曙光。又是连续几天吃住在机房……

  8月4日上午,网上一个曾浏览过的有关GPU超频提高性能的帖子突然浮现在杨灿群脑海。帖子上说,GPU超频可以提高性能,但会导致GPU运行不稳定,甚至系统黑屏。

  杨灿群突发奇想,按照逆向思维,如果选用的GPU具有调频功能,让GPU降频不就可以提高它的稳定性吗?

  天随人意,拿过使用的那款GPU一看,恰恰具备调频功能。大家赶紧对它进行降频处理。结果GPU稳定性问题终于迎刃而解。

  GPU计算效能、稳定性关键技术探索艰难曲折,其他关键技术攻坚也跌宕起伏、步步惊心。

  超级计算机系统要实现每秒运算千亿次,不仅要求CPU、GPU“算得快”,而且要求有一个快捷通畅的网络系统,让各种信息“跑得快”。

  2008年10月,苏金树带领大伙受领的某新型交换机项目,是每秒千万亿次超级计算机通信网络的“立交桥”,直接决定着网络通信速度。通过深入调研、严密论证,他们提出正交系统互连方案,使系统结构简洁,设计难度、制造工艺要求、研制和生产成本大幅降低。

  但通过互联网将正交互连方案和芯片制造商美国技术工程师交流后,遭到坚决反对,对方在三封邮件和四次电话会议中反复强调:

  一、他们也研究过正交互连,也进行过正交互连结构条件下的仿真、实验和测试,结论是:信号传输损耗大,阻抗不连续,不能满足该型交换机信号传输要求。

  二、该型交换机设计非常困难,他们用了两年多时间才完成,没有他们的技术支持,不可能成功。

  三、如果坚持正交互连方案,他们将不给予正确的技术支持。

  四、如果坚持正交互连方案,必以失败告终。

  研制工作一开始就陷入两难境地。如果坚持走自己的设计路线,需要一切从头探索,创新难度大,风险高;如果改方案,完全按美国人提供的方案搞,成功有把握,但没有自己的特色,没有创新,没有优势。

  从来就不迷信和崇拜别人的银河人坚定地选择了前者。他们坚信没有美国人的技术支持,中国人照样把新型交换机搞出来。他们说,20世纪60年代,苏联撤走专家,中国照样搞出了原子弹!90年代,英国撤走汽车专家,中国照样搞出了小汽车。很多事实已经证明,死了“张屠夫”,中国人照样不吃“带毛猪”。

  他们通过两个多月夜以继日的仿真和试验,发现在正交互连条件下,美国人的试验方案和设计规范,确实不能满足某新型交换机信号的传输要求。但深入研究了信号完整性方面的相关理论和技术及美国人的设计规范后,终于发现他们所使用的矩形反焊盘,是导致信号传输损耗大和传输阻抗不连续的主要原因。针对该薄弱环节,他们发明了跑道式和哑铃式反焊盘,通过三个多月反复迭代仿真,得到全面设计规范,关键的眼图技术参数达到60ps,远远大于美国人的35ps。

  仅用10个月时间,他们就研制完成新型交换机。实测技术指标大大超过同类系统,而成本是同类同规模产品的80%。

  高速互联网上交换芯片、接口芯片测试,也经历了一番迂回坎坷。

  研制小组经过半年多连续奋战,完成逻辑设计和软硬件模拟时,离芯片最后投片期限只有3天了。

  大家把最后版本的逻辑设计都综合在FPGA测试软件中,准备进行最后完全测试。这也是研制工作关键点之一,如果通过了,那就万事大吉;如果卡了壳,那就前功尽弃。

  测试程序启动后,大伙都把眼睛睁得圆圆的,紧紧盯着屏幕。突然,那些欢快滚动的数据一下撞到墙上似的,一动不动了。

  大伙心里一沉,这是怎么回事?

  赶紧检查外围,发现光纤好好的。

  检查服务器,服务器也活着。

  查看交换机,交换机也有电。

  又查以太网,也是工作正常。

  最后,大家抱着试试看的想法,让它从头开始运行。那些数据又开始滚动起来,可几分钟后,又故态重萌,躺着不动了。

  死锁!大家一下子都急出一头冷汗。要解开这把死锁,首先必须查明它“死”在哪里。

  查因的突破口首先选在测试试题与测试模式结合部。负责测试操作的刘路和设计测试题的谢闵,由于年轻气盛,加之急火攻心,两人一碰头便“吵”了起来。

  谢闵正忙着测试另一个驱动程序,劈头便问刘路:“我那边正忙呢,你叫我干什么?”

  刘路说:“把所有测试题都加进去跑,运行一会儿就死锁了,会不会是你编的测试题不能一起跑?”

  谢闵说:“不可能,单个题能跑,混合在一起跑不会有影响。”

  刘路说:“那不一定吧,单个跑和混在一起跑,能一样吗?”

  谢闵说:“你放心,我所有的题都内部做了流控,绝不会出现相互拥挤现象。”

  刘路说:“别的题单独跑没问题,说明硬件没问题。偏偏跑你的题死锁,不是你的题有问题,是什么?”

  谢闵说“我还怀疑你们的测试模式有问题呢!”

  沉默一阵,两人几乎同时朝对方摆摆手说:“咱们再争是浪费时间。”两人商定按老规矩,都去自查原因,自证清白,再合作解决。

  研究室领导带着大家忙了一个昼夜,结果却发现测试题和测试模式都没问题。

  难道是接口芯片出问题了?大家将所有接口芯片统计计数器的值读出,结果四个接口芯片流出的数据包的个数恰好等于四个接口芯片流入的数据包的个数,这说明正常呀。

  他们不得不把怀疑的目光移向交换芯片。要是在这最后时刻发现它有问题,后果不堪设想呀。就在大家都悬着一颗心,紧锣密鼓苦读代码时,却意外地从测试用的FPGA版本上发现了疑点。

  把FPGA版本进行更新再运行时,那些数据终于又快乐地跳跃起来。两种芯片都按时一次投片成功。

  大伙擦去额头上的汗珠,轻松地吁了口气:“要是再查不出原因,耽误了投片,拖了工程后腿,我们可没法向党和人民交代呀。”

  在大家艰难曲折、锲而不舍的攻坚中,各项关键技术相继突破。

  银河麒麟操作系统。基础软件创新团队针对每秒千万亿次超级计算机需求,在麒麟操作系统基础上改造升级,研制出支持异构融合体系结构、突破64位多核多线微处理器体系结构与SoC架构支持、支持基于高阶路由的高速互联通信、提供多级并行编译优化支持和高性能虚拟计算域管理能力、基于软硬一体的低功耗控制技术实现了一体化能耗管理框架的银河麒麟操作系统。它是纯粹的“中国制造”,是国内安全级别最高的操作系统。

  基于高阶路由的高速互联通信。突破了片上高阶网络体系结构技术,自主设计了高效通信协议、高阶瓦片式(Tile)片上交换网络和高密度片间互联网络,使链路双向通信带宽达到160Gbps、单背板交换密度达到61.44Tbps,分别为当时国际主流商用互连IB QDR的2倍和2.37倍。

  多级并行编译优化。设计了优化资源利用的多核多线调度机制、多级并行动态负载平衡算法、全程序过程间分析等编译算法,高效支撑JASMIN编程框架,实现易用高效的应用编程与运行。

  高性能虚拟计算域。突破了高效用户容器技术、负载均衡技术和虚拟化网络终端技术,创新地在高性能计算机系统中实现了安全隔离和可定制用户环境功能,有效提升了安全性和易用性。

  软硬一体的低功耗控制。设计了一体化能耗管理框架,通过监控系统自反馈冷却调节、处理器调频调压和自适应结点能耗状态转换等方法,有效降低了系统运行功耗。

  ……

  2009年国庆节来临前夕,每秒千万亿次超级计算机一期系统安装完毕。这时,从芯片市场传来一个喜讯,一款性能更高的新款GPU上市了!这对于正与世界强国决战的银河人来说,就像在国际足球赛中的前锋面前突然出现了空门,让大家兴奋到狂喜。

  但这“临门一脚”并不好踢:一是离任务节点只有一个月了,而更换GPU必须先拆再装,整个系统有2560多个节点,团队完成更换GPU的工作通常需要半个月左右。而且更换了新GPU之后,就必须对原先的软件优化措施加以改进,能按时完成任务吗?

  总师杨学军把一线攻关团队集合起来,大声问大家:“这新款GPU,我们上不上?”

  大家异口同声:“上!上!上!”

  “按时完成党和国家交给我们的任务,有没有信心!”

  “保证完成任务!”

  国庆节来临了,最后的突击开始了。测试筛选、拆卸安装GPU,是个体力活。团队全体人员,男女老少齐上阵,三天三夜,谁也没合过一下眼,终于完成数以千计的GPU更换工作。

  任务完成后,杨学军再次把大家集合起来,看着大家一双双贴满创可贴的手,熬得通红通红的一双双眼睛,他的眼睛也红了。

  2010年11月18日,国际超级计算大会在美国西部城市波特兰举行,国际TOP500在大会上发布第34届国际500强排行榜时,立刻引起一片惊叹。

  此届榜单,爆出两大新闻。一是被称为超级计算“老祖宗”的美国Cray公司,终于凭借峰值速度达每秒2331万亿次、实测性能达每秒1759万亿次的“美洲虎”,取代了长期霸居榜首的IBM公司,一举拔得头筹。二是“天河一号”夺得世界第五,不仅是中国机器在TOP500排名中的最好成绩,而且名次较此前实现了大幅飙升。

  “天河一号”总师杨学军收到大洋彼岸打来的报喜电话,只是淡淡一笑,轻轻“哦”了一声,便放下了手机。自从加入银河人行列,尤其是接过银河事业帅旗以来,他带领大伙在超级计算机前沿阵地冲锋陷阵,屡克难关,硕果累累,曾获得国防科技进步特等奖、一等奖,国家教学成果一等奖,国家技术发明二等奖,军队专业技术重大贡献奖,国家杰出青年科学基金、创新研究群体科学基金,荣立一等功。每次得知喜讯,或收到奖状、奖章,他都是这般一笑而过。在他脑海里,完成一个项目、攻克一个难题、取得一个成果,无论影响有多大,都像他母亲所说的“又做了一件事情”而已。

  要说得到喜讯,与过去有什么不同,就是他忽然感觉非常疲倦。自从“天河一号”工程启动后,身为工程总设计师,他既要处理行政事务,又要谋划工程进展,还要深入科研一线指导攻关,整天脑子绷得像根弦、身子忙得似飞转的陀螺,根本感觉不到疲劳,甚至不知什么是饥饿。

  他往床上一倒,便进入甜蜜的梦乡。睁开眼睛时,他看到玻璃窗上映着一方金色阳光,一只小鸟站在窗外的枝头上“啾啾”欢叫。

  他揉了揉眼睛,问在大厅里忙碌的妻子:“玉华,几点了?”

  妻子说:“快八点了。”

  “今天几号?”

  “20号,你足足睡了两天呢。”

  杨学军惬意地舒展一下胳膊,吃过妻子备好的早点,然后来到银河广场,像往常那样点上一支烟,一边漫步,一边任思绪随那袅袅烟雾飘向广袤的天空。

  作为一名长年在超级计算机前沿阵地上征战的老将,他深知我们国家目前的快速发展,非常需要坚实的科技支撑,而我国超级计算机研制水平,与发达国家相比,不仅不能同日而语,其应用意识、应用水平更是相去甚远。在高性能计算这个充满火药味的竞争领域里,稍有懈怠,就会被别人赶超甚至被淘汰。所以,“天河一号”研制成功,对于他来说,和过去攻克的每一个科技“堡垒”一样,只不过是一个逗号,而逗号的后边,还有无数个问号,在等着他带领团队去求索、去破解。

  傍晚,“天河一号”工程总师杨学军, “天河一号”工程总指挥廖湘科,计算机学院政委周建设,一起来到学校办公大楼前广场上散步。

  杨学军说:“党中央提出建设创新型国家、建设信息化人民军队宏伟目标,学校作为强军兴国先锋,任重道远啊。”

  廖湘科说:“据参加国际TOP500颁奖典礼的同志通报说,虽然我们的排名名次提升很快,但与发达国家相比,我们还存在较大差距,在整个500强中,美国就占了277套系统,而我们只有21套系统。国家已经制定超级计算机整体赶超计划,我们作为计算机技术创新国家队,一定要多发挥作用、发挥大作用。”

  杨学军说:“虽然获得了亚洲第一,但我们的目光绝不能只盯着亚洲,而是要放眼世界。”

  周建设说:“抢占高峰,超越世界,是我们一代代银河人追逐了几十年的梦想。大家听到我们的机器跻身世界前五的消息后,都非常振奋,心里都憋着一股子劲,都渴望着在‘天河一号’二期工程中,乘胜冲击超级计算机珠穆朗玛峰。”

  杨学军说:“‘天河一号’二期系统不仅要力争机器各方面性能全面大幅跃升,并且一定要用上自己研制的CPU,逐步改变微处理器依赖进口的局面。”

  “中国机器,外国芯”,是银河人心头难言的遗憾、隐隐的痛。

  为让中国机器拥有“中国芯”,2008年启动“天河一号”工程时,国防科技大学微处理器技术创新团队开始研制设计“飞腾1000”芯片。

  为让“飞腾1000”达到国际先进水平,而且便于推广应用和可持续发展,创新团队顺应国际微处理器发展潮流,选择兼容生态系统良好的SPARC指令系统,采用多核多线程SOC体系结构,片内集成了8个处理器核,每个核8个线程,成为国内单芯片线程最多的处理器。此外,还面向超级计算机研制需求,在“飞腾1000”中集成了3路芯片直连接口,支持2—4处理器芯片直接互联构成多路SMP系统;集成4MB共享二级Cache和4路DDR3存储控制器(MCU),使数据处理和访存带宽更好匹配,缓解存储墙压力。

  有人把这一研制目标形象地概括为“一步登天”。这四个字,透显出如虹气势,也意味着艰难险阻。

  研制工作刚展开,DDR3 调测试就遇到双重挑战:一是dimm条上的控制芯片与最新的DDR3规范有些不兼容,导致多个rank同时刷新的命令无法存储,丢失数据;二是由于芯片规模大,封装难度高,芯片到dimm条的时钟占空比不理想。大家苦熬几个通宵,才找到最佳办法,选出最优方案,圆满解决问题。

  不久,长沙遭遇“2008冰雪灾害”,输电线路惨遭破坏,城区管理部门被迫出台限电令,禁止使用空调。室外白雪皑皑,室内寒似冰窖。长期集中攻关的科研人员,大多患有腰肌劳损,让寒气一逼,腰酸背痛,但他们拿被子往腰上一围,继续坚持工作。

  天气暖和了,设计工作告一段落。可制成样品后,又发现性能不达标。费了九年二虎之力,才发现是合作单位对顶层困难估计不足,导致顶层规划出现问题。没办法,只好推倒重来,重新确定新的物理设计方法,大幅提高了产品性能。

  10月份,“秋老虎”走了,但难度最大的“拦路虎”却跳了出来。由于设计规模巨大,synopsys ICC工具失去作用,Cadence Encounter基本绕线不通。此时,离芯片投片已不足两个月。

  大家知道,逾是形势紧迫,逾要沉着应对。通过仔细分析设计数据、梳理数据流向,提出顶层设计新方案。该方案虽然需要顶层设计及其功耗设计、封装设计等一系列工作推倒重来,工作量巨大,但科学可行,赢得总师组支持和合作单位密切配合。通过20多天紧急突击,使时序违反的路径迅速收敛,最终完全收敛了下来。

  当时光完成一个轮回,再次跨入深冬季节时,芯片设计进入最后时序检查阶段。就要大伙想经历了无数不眠之夜,总算走过了千难万险,终于可以回家美美睡上一觉时,一个意想不到的问题,又斜刺里杀了出来——设计流程在分层延迟计算和信号完整性方面存在重大隐患。若不排除,整个CPU将功亏一篑。

  大家立马重整旗鼓,对问题隐患进行密集排查“围剿”,终于找到并成功排除“元凶”,使所有数据回归正常。

  “飞腾1000”通用CPU,按时完成设计,并一次性投片成功!

  次日,国防科技大学计算机学院超级计算机创新团队召开“天河一号”二期系统决战动员会。大家高举右手,喊出了银河前辈铿锵的声音:

  时间一年,一天不超!

  每秒4700万亿次,一次不少!

  一定要部分使用国产飞腾CPU!

  “上甘岭战役”

  很多同行专家听了他们的决心,既深表钦佩,也为之担心:“在一年时间里,机器性能提升近3倍,除非奇迹发生。”

  从一期系统的每秒1206万亿次,到二期系统的每秒4700万亿次,并不是数字的简单拓展。运算峰值提升近三倍,而机柜数量却只能增加四分之一左右,意味着一组同样大小的机柜,二期系统的性能要比一期系统提升两倍多,这给研制工作提出了一系列挑战,需要跨越多核多线程体系结构与片上并行系统设计技术、编译系统全程序过程间分析等编译优化、自主高效的通信协议、高阶路由器体系结构、超大规模集成电路设计与高速率高密度交换机的设计等一系列技术难题。这些技术障碍,哪一个都不是小沟小坎,全是深涧巨壑。

  大伙颇有深意地说:“‘天河一号’二期系统攻坚,是一场‘上甘岭战役’。”

  参与工程任务的科研人员,就像当年在上甘岭上与美帝国主义侵略者决战的将士。为了国家荣誉、民族尊严,以连续作战的作风,顽强拼搏的意志,“舍身炸碉堡”的勇气,向着科学巅峰躬身冲刺!

  通信光纤铺设,是“天河一号”二期系统进驻国家超算天津中心的首期工程,时间紧迫、任务艰巨。为确保按期完成施工任务,指挥员把任务细化到天,要求大家“当天任务不完成当天不吃不睡”。

  哪知施工第一天,刚铺了几根光纤,施工指挥员拿起一看,立刻傻眼了:光纤的绝缘胶皮被磨出了道道裂痕,个别地方还露出线芯。

  原来地沟的水泥表层太粗糙,加之时值盛夏,地沟温度高达40多度,把光纤绝缘层烤得似细皮嫩肉,哪经得起水泥地的摧残。

  这个问题不解决,后果不堪设想。轻则信号中断、通信短路,重则导致系统紊乱。

  如何避免光纤绝缘层受损?

  大家绞尽脑汁,也没想出个法子来。急得指挥员抓耳挠腮,一屁股坐在地上:“嗨!这可怎么办?”

  时间,在嘀嘀嗒嗒一秒秒过去。大伙讨论了两个小时,还是没招。

  指挥员抹了一把脸上的汗水,举着手掌愣了愣,然后一拍大腿说:“有办法了!”

  只见他把衬衣、裤子一脱,跳进闷热的地沟,俯卧在粗糙的水泥地上。

  大家一看,立刻明白了指挥员的意思,不用谁下令,纷纷脱下身上的衣裤,跟着跳进地沟,铺设了一条光滑的人肉地毯。

  一根根光纤顺着官兵光滑的皮肉通畅地向前延伸。滚烫的水泥地灼烤着官兵的血肉之躯,大家一身汗水、满身污垢。

  背上被磨得通红,官兵们咬牙坚持;

  皮肉被磨破了,他们依然一动不动;

  伤口不住地往外渗着血水,还是没有一人撤退;

  ……

  天津滨海新区一名领导看见这一幕,非常感动。“战争年代,我军将士为民族独立、人民解放,用血肉之躯堵枪眼,炸碉堡。和平时期,人民子弟兵,跳进洪流堵溃堤,冒着地震救灾民。今天,我又看见我军科研人员,为保护科研器材,赤身裸背卧地沟,流汗淌血不后退。人民军队的光荣传统,在你们身上没有丢!我们国家有这样科研队伍,再艰难的工程也能拿下!”

  一个月,他们几十个人,在粗糙闷热的地沟里赤身裸背爬了30天。一个个被坚硬的水泥地和光纤刮擦得遍体鳞伤。但15000根光纤毫发无损!

  “天河一号”二期系统试机那天,一打开机器,全部通信线路畅通无阻。国家超算天津中心领导,特意来到担负光纤铺设任务的官兵中间,一一察看他们背上那些尚未痊愈的伤口,动情地说:“‘天河一号’二期系统首试畅通,有你们的贡献!功劳簿上,有大家的名字!”

  杨灿群带领计算效能提升团队在国家超算天津中心天河机房摆开了战场。他们的第一个任务,就是确保系统所有部件连续稳定运行4小时以上。哪知一开机,系统又出问题了。

  他们到天津前,就在长沙做了四个机柜的验证系统,进行了稳定性调试,没有发现任何问题。天津系统所使用的部件与长沙系统完全一样,为什么就出问题了呢?

  杨灿群抬头望一眼天河机房,有种一眼望不到头的感觉。并排矗立的140组机柜,其中包含了数以万计的部件,只要其中一个部件、一个系统出问题,都会影响系统的稳定性。这个问题部件、系统在哪呢?杨灿群和大伙仿佛一脚踏进一个深坑,眼前一片漆黑。

  在黑暗中探索好几天,他们才发现问题竟然出在水冷系统上:由于水量不足,散热功能下降,造成超级计算机系统温度过高。

  随着系统调试全面展开,他们又发现GPU也存在抽风似的波动现象。大伙通过对GPU稳定性相关因素,如GPU自身、GPU的供电模块、GPU与主机的通信接口卡、GPU散热等,一一进行大量采样分析,没有发现任何蛛丝马迹。他们又对GPU工作状态温度进行监控,通过大量数据采样分析后,发现同一个刀片上的两颗GPU的工作温度有明显差异。通过发明风量“挖补”技术,终于彻底解决了散热不均匀问题,实现了GPU稳定工作。

  “天河一号”二期系统采用自主研制的互联网络系统,是个全局性的设备,也是影响系统稳定运行的关键因素。加之规模巨大,结构复杂,不仅测试难度大,而且一旦出现问题,查因、维修困难,。他们通过与互联网络系统科研人员密切配合,依据网络特点研究测试方法,编写了分组、并发等多种测试代码,高效实现了网络接口、网络路径全覆盖测试,实现了故障快速定位和排除。

  又一个国庆佳节来临之际,“天河一号”二期系统终于达到稳定工作目标。

  已连续奋战两个月的杨灿群和战友们顾不上坐下来喝杯茶、歇歇气,立刻对系统计算效能进行最后优化。他们逐个测试系统各个计算结点,排除了内存故障、GPU故障影响计算效能问题,使计算效能提升到每秒1890万亿次。

  初战告捷,他们趁势扩大战果,又对应用软件进行优化,使系统性能达到每秒2339万亿次。

  这已经是个奇迹了。当时世界排名第一的美国“美洲虎”超级计算机,其计算效能也只有每秒1767万亿次。如果按照国际TOP500组织以计算效能排名,“天河一号”二期系统已将它远远甩在后边。

  但杨灿群和同事们还不满足。他们认为“天河一号”还有潜力可挖。把“美洲虎”甩得越远,“天河一号”对世界第一的冲击力就越大。

  他们继续把自己关在机房,发起最后冲刺。

  10月19日下午,杨灿群到北京办事。汽车在京津高速公路上奔驰,在通过一个立交桥时,他看着来自四面八方的车辆汇集在桥上,然后又有序地驶上四面八方,脑袋里突然灵感闪现:如果把超级计算机网络喻为城市交通枢纽,网络路径就是一条条城市街道,这些街道的交会点,往往成为交通堵塞区,车辆只有合理放行,才能保证交通畅通。

  杨灿群马上给同事打电话,让他们关注网络路径,修改参数,对超级计算机计算效能再次优化。

  当天晚上,“天河一号”计算效能再次冲高——每秒2490万亿次。

  次日,奇迹再现——每秒2507万亿次!

  10月30日,“天河一号”二期系统就要向国际TOP500组织递交测试结果的前夕,他们仍在继续优化,并再下一城,将系统计算效能提高到每秒2566亿次,计算效率达到54.6%,属于世界最高水平。

  参与工程研制的科学家们用奋不顾身的冲刺,把一个个科学“高地”踏在脚下:攻克了超级计算机CPU间高速高效互联通信这一世界难题,研制成功高阶互联交换芯片、高性能互连接口芯片;研制成功4类结点机、2套网络、15种印制电路板;编写完成操作系统、编译系统、并行程序开发环境与科学计算可视化系统。其中,异体融合体系结构、基于高阶路由的高速互联通信等技术达到国际领先水平。

  他们还在“天河”机上实现了“中国芯”从无到有的突破,在二期系统中安装了2048颗“飞腾1000”通用CPU。如果用户要求,可全部实现国产化,通过高效互联通信,形成完全自主的高性能计算机。

  曾几何时,很多外国专家在表达对中国计算机技术的鄙视时,总是这样发问:“你们中国的超级计算机有‘中国芯’吗?”

  现在,还是让国外专家自己来回答吧。

  全球超级计算机500强排行榜主要编撰人之一、美国田纳西大学计算机学教授唐加纳,考察了“天河一号”二期系统后,发表评论说:“虽然‘天河一号’二期系统的处理器仍主要采用美国产品,但其互联芯片完全是中国自主制造的,并且中国已经有自己的CPU了。互联芯片主要涉及处理器之间的信息流动,对于超级计算机的整体性能起到关键作用。中国制造这些互联芯片,具有世界最先进的水平。”

  唐加拉教授是国际高性能计算机领域的知名专家,他的评价是比较客观的。国防科技大学自主研制的高阶路由芯片和高速网络芯片,其性能是国际商用芯片的两倍。“银河飞腾1000”在“天河一号”二期系统成功使用,标志着中国信息产业“空心”历史开始走向终结。

  “天河一号”二期系统较一期系统,性能再次大幅跃升:峰值速度每秒4700万亿次和持续速度每秒2566万亿次,分别提高了2.89倍和3.55倍;计算效率再次提高近10%。

 

  从巅峰悄悄出发

 

  仅仅半年后,即2011年6月国际TOP500发布新榜单时,日本公司研制并安装于本国理化研究所的超级计算机“京”,扶摇直上,取代“天河一号”占据了榜首位置。2012年6月、11月,美国的超级计算机“红彬”“泰坦”,又先后登上国际TOP500排名之巅。“天河一号”排名跌到世界第8。

  这一跌,跌得国产超级计算机的“粉丝”们好心疼、好心酸、好失望啊。“‘天河一号’怎么啦?怎么昙花一现就被滚滚大潮淹没了呢?”

  心怀叵测者又开始鼓噪:“国产机器就这样,只是个政治标本而已。”

  而这时,天河人却出奇地冷静,不惊慌,不解释,不反驳,更不沮丧。

  对于日、美的反超,天河人早有预料。这是人家的优势领域、战略领地,是别人耀武扬威、傲视世界的地方,岂能容一匹“黑马”撒蹄狂奔?再说,超越与被超越的角色轮回,仰视与俯视的状态更替,既是科技发展的常态,亦是科技进步的动力,用不着耿耿于怀,更犯不上惊慌失措。沉默,往往体现的是自信和力量。

  更重要的是,虽然“天河一号”冲顶成功,掌声与鲜花让人感到自豪与欣慰,但天河人从未因此而得意忘形、心浮气躁。他们深知,世界超算领域的“游戏规则”并未因“天河一号”的出现而改变。

  听听天河人对媒体记者说的那些话吧:

  “就整体实力而言,第一梯队仍然是美国。‘天河一号’暂时胜出,只能说明我们已经站在第二梯队的前列。”

  “在最新TOP500排行榜中,美国上榜计算机230多台,并且全部由美国公司自己研制,仅惠普、IBM、克雷三家公司,就制造了500强中的409台。IBM公司内部员工流传一句笑话:在超级计算机领域,97%的市场份额来自IBM公司,剩下的3%来自IBM二手机器。日本上榜的30台机器中,日本制造仅占37%,其余均为美国制造;中国上榜76台,中国制造只有13%,电信、互联网等领域的用户大多使用惠普、IBM系统。中国超级计算机总体水平与美国相比,差距不是一点点,而是一大截。”

  “中国的整体系统已经走在世界领先,但就高性能计算机完整产业链而言,中国还有很长的路要走。”

  “体系结构、互联技术、操作系统、微处理器、应用软件,是超级计算机缺一不可的五大核心要求,前三个中国都解决得很好,但后两个仍然是短板。”

  “我国在核心部件与原创技术上,与国外先进水平差距不小。如CPU的物理设计与美国起码差一代,工艺起码差两代。”

  “应用方面也一样,美国、日本等超算技术发达国家,超算与社会生产发展实现深度融合,推动了汽车、飞机、航天、电影等一大批产业快速发展。而我国的超级机只在一部分专业领域得到成功应用,应用瓶颈尚未完全突破,既影响社会进步,也迟滞了超级计算机的发展。”

  “人才方面更处于劣势。美国有超过1万人的超级计算机高级专业人才,中国用高薪也聘不到几个人。深圳超算中心开出年薪100万,还是一才难求。”

  “虽然‘天河一号’在国际TOP500夺魁,但西方国家在信息技术领域的优势地位没有改变,美国在超级计算机研制和应用的主导地位没有改变,世界强国争夺超级计算机领先地位的态势没有改变。”

  三个“没有改变”,既是对超级计算机领域各国实力的准确概括,也是对天河人勇夺第一后平静心态的生动写照。

  落差蕴含能量,距离激发动力。正如中国科学院院士、“天河一号”总设计师杨学军所说:“从‘天河一号’问世那天起,‘天河二号’的攻关就开始了。在对国际高性能计算发展趋势进行分析后,我们瞄准了每秒亿亿级机器的研制,决心在引领世界超算发展中作出新的贡献。”

  “吃着碗里的、看着锅里的、想着缸里的”,这是银河人、天河人的传统思维。

  “与其说给别人听,不如做给别人看”,这是银河人、天河人的行为风格。

  他们刚刚占领巅峰,又从巅峰悄悄出发,向着新的巅峰进击。

  2011年1月,国防科技大学召开“天河工程领导小组会议”,启动“天河二号”每秒亿亿次超级计算机认证与预研工作;计算机学院院长、“天河一号”研制总指挥、副总设计师廖湘科,担任“天河二号”研制总指挥、总设计师。

  3月,国防科技大学与广州市政府开始洽谈共建“广州超级计算中心”合作事宜。

  11月,国防科技大学“新一代天河超级计算机研制项目”通过国家科技部组织的专家评审,并与广东省、广州市、中山大学签署“省市校共建广州超级计算中心协议”。“天河二号”攻关全面展开。此后,与广州市签署“广州超级计算中心‘天河二号’研制合同”,并确定中心选址于广州大学城的中山大学校区。

  2012年5月,国防科技大学向广州超算中心提供先导超级计算机,支持开展前期业务。

  ……

  沉寂两年半后,“天河”超级计算机雄姿再现,王者归来。于2013年6月在国际TOP500排名中,重新占领世界超算之巅!

  “天河二号”峰值速度达到每秒54.9千万亿次,持续计算速度达到每秒33.86千万亿次,综合技术处于国际领先水平。

  它比此前排名世界第一的美国“泰坦”超级计算机,计算速度快2倍,计算密度高2.5倍。

  它与“天河一号”相比,计算性能、计算密度均提升10倍以上,能效比提升2倍,耗电量却只有“天河一号”的三分之一。

  若想探索地球气候变化规律,“天河一号”可以模拟2000年前的气候变迁,“天河二号”能够回溯到5000年前。

  进行500人规模的全基因组信息关联性分析,华大转基因用自有计算机系统需要一年完成,运用“天河二号”只需要3小时。

  电影《阿凡达》动漫渲染制作耗时一年多,若用“天河二号”,1个小时便可完成。

  用传统方法研发新型轿车,要经过上百次碰撞、历时两年多实验,利用“天河二号”只需3至5次碰撞、两个多月便可实现。

  “天河二号”的计算能力,名富其实的“超级”“神算”!

  那些对“天河”超级计算机说三道四、横挑鼻子竖挑眼的人,终于暂时把嘴闭上了。

  现在该轮到科学家发声了。中国科学院软件研究所研究员张云泉自豪地说:“体系结构之路上,中国人在拉着世界走!”

  外国科学家也纷纷说出了公道话。

  美国英特尔公司副总裁雷杰伯·哈兹拉说:“‘天河二号’的进步,不仅对中国科学界、产业界有利,而且将推动数十年内世界超级计算机技术的发展水平。这台机器和其他超级计算机为全球日益增长的大数据处理需求提供了基础设施。”

  美国劳伦斯·伯克利国家实验室副主任霍斯特·西蒙说:“如果有人觉得中国人研制超级计算机只是噱头,‘天河二号’就可以证明他们错了。”

  冲刺!冲刺!冲刺!

  再次站在世界之巅的天河人,是怎样一种心情呢?

  庆功宴上,“天河一号”总设计师、国防科技大学校长杨学军,计算机学院院长、“天河二号”总设计师廖湘科,计算机学院政委刘学明相互敬酒时说的一番话很有代表性。

  杨学军说:“国防科技大学从1958年研制成功我国第一台专用数字电子管计算机,成为我国计算机科研和人才培养基地后,坚持瞄准世界前沿攻坚克难,引领着我国计算机技术不断发展。尤其是1983年研制成功‘银河—Ⅰ’每秒亿次巨型机,实现了我国从大型机到巨型机的飞跃;1983至1997的14年间,研制‘银河—Ⅱ’‘银河—Ⅲ’,推动了我国巨型机从每秒亿次到每秒10亿次,再到每秒100亿次的跨越,此后10年又相继研制出每秒万亿次、30万亿次、100万亿次巨型机;在2007至2010不到两年时间里,又在世界上率先创造出引领世界潮流的体系结构技术,使我国超级计算机从每秒百万亿次跃进到每秒千万亿次,夺得国际TOP500排名第一,圆了银河人、天河人追求数十年的梦想。现在我们再折世界桂冠,进一步巩固了国家在世界超算领域的地位。这一系列跨越说明了什么?说明这是我们的传统!同时也是责任。现在信息技术领域发展神速,我们必须不断挑战自我、超越自我,稍有懈怠,就将被世界淘汰!”

  廖湘科说:“再占巅峰,并不是创新的休止符。在研制‘天河一号’‘天河二号’时,我们并没有把十八般武艺都用上,我们的技术路线还有很大的发展空间,我们的队伍还有很大的创新潜力。我们一定要,也一定能站得更高、走得更远!”

  “党的十八大召开后,习主席提出的中国梦强军梦,让广大科技工作者深受鼓舞,大家纷纷表示要为中华崛起贡献更多智慧、更大力量。”曾参加对越自卫还击战的刘学明说,“科研攻关就像战场,冲锋是最好的防守,要想在这个战场上立于不败之地,需要我们冲刺!冲刺!再冲刺!”

  国防科技大学超级计算机创新团队的确有着争取更大成绩、创造更大辉煌的实力。

  “听到‘天河二号’再夺国际TOP500排名第一的消息,我觉得很了不起,但感到不奇怪,相反它不夺第一,我才觉得奇怪。”在国防科技大学军事高科技培训学院进修的一名将军说,“国防科技大学高科技班刚开班那年,我就参加了团级干部培训班,此后我又参加了师、军职高科技培训班。在国防科大学习生活累计近一年,我每天早上起来跑步时,都发现有人进出银河楼、天河楼,一打听才知道那些从楼里出来的是在实验室熬了一个通宵的,那些进去的则是提前去实验室做实验的。而晚上,这两栋楼里几乎每一扇窗户都亮着灯。春、夏、秋、冬,几乎天天如此。我还从来没见干工作这样玩命的。”

  如果说这位将军的话中透出的是超级计算机创新团队的“软实力”——奋勇进取、顽强拼搏的精神,那么他们的“硬实力”更为雄厚,那就是得天独厚的技术优势。

  超级计算机有五个核心要素:体系结构、互联技术、操作系统、微处理器和应用软件。前三个要素,用天河人的话来说“这是我们的‘绝活’”。

  “天河一号”采用的CPU+GPU异构融合体系结构,是一项对传统技术路线有着颠覆性创新意义的总体结构技术,有着低能耗、低成本、高集成度等优点,因而很快成为国际主流。在此基础上,天河团队大胆创新,为“天河二号”设计出新型异构多态体系结构,大大提升了系统计算速度,并将其应用从科学计算拓展到大数据处理、大规模信息服务等领域。

  随着超级计算机系统越来越复杂、规模越来越大,互联技术的作用越来越大,甚至不亚于CPU。“天河二号”高速互联系统性能,是当前国际商用互联系统的两倍。它可以把几万颗微处理器联系起来,共同解决一个计算问题,解决了高效互联中“微处理器越多效能越低”的世界难题。他们自主研制了互联通信系统最核心的两块芯片:路由器和网络接口。一台超级计算机系统好比一个大城市,互联通信系统就是城市的公路网,路由器就是立交桥,网络接口就是主干道出入口。一个城市公路网市政设施建设得再好,立交桥和主干道出入口不设计好,城市交通依然拥挤不堪。他们在设计这两块芯片时,应用多种创新技术,实现了数据交换高效快捷。

  正如杰克·唐加拉教授在回答记者“什么使中国超级计算机如此神速”这一问题时说:“中国自主研发了内部互联技术,这是买不来的。这是他们基于芯片、路由器及自主生产的交换器开发出来的。这跟Cray公司情况相似,Cray公司的贡献除了集成以及软件以外,还贡献了内部互联技术。他们运用无限带宽技术的内部互联,将两倍于内部互联带宽的东西整合在一起。”

  “天河”使用的操作系统也很有特色。它在大多数中国超级计算机使用外国操作系统的情况下,采用自主研发、以高安全性著称的“银河麒麟”操作系统。该操作系统,使“天河”的每一名用户像到银行租了个保险箱一样,钥匙和密码都握在自己手上。其中的信息,其他用户甚至连管理员都看不到。一句话:“中国人自己研制的操作系统,中国人放心用。”

  超级计算机后两个核心要素——CPU与应用软件,也正在迎头赶上。

  让中国超级计算机拥有一颗“中国芯”,是中国科学家久远的梦想。国防科技大学成功研发“飞腾1000”CPU,并成功应用于“天河一号”,部分取代进口CPU,让梦想成真。“天河二号”上的国产“飞腾1500”CPU占全部CPU的八分之一。若用户需要,完全可以100%采用国产CPU。

  科学领域的巅峰,从来就不是静止的,而是时刻在变化、在发展、在攀高。因此,巅峰不是科学家追求的终结,而是继续冲刺的新起点。一次次把巅峰踏在脚下又一次次出发,是科学家的生活方式和生命状态。

  随着天河人不断向前跋涉的脚步,中国超级计算机技术创新不断谱写新的世界纪录:

  2013年11月,在第四十二届国际TOP500排名中,“天河二号”再度夺得世界冠军。

  2014年6月,“天河二号”实现国际TOP500排名“三连冠”。

  2014年11月,“天河二号”以每秒33.86千万亿次的浮点运算速度,第四次摘得全球运行速度最快的超级计算机桂冠,持续计算速度比排名第二的美国“泰坦”快近1倍。这是“天河”系列超级计算机第五次夺得世界超算桂冠。

  ……

  双科“状元”

  中华民族的迅速崛起,就像是一个曾疾病缠身、弱不禁风的小伙子,突然变成一个体魄伟岸、孔武有力的壮汉子。小伙子自己是高兴了,可那些已习惯于对他指指点点、吆三喝四甚至拳脚相加的人心里就不痛快了,于是就有了“中国威胁论”,就有了针对中国的“围堵外交”,就有了“亚太再平衡”……

  与此同时,西方国家在中国培植的“应声虫”们,在一批以逆反为乐却世事不谙的“愤青”们的附和下,玩起了唱衰中国的鬼把戏。但如何唱衰?直接指责中国执政党、中国政府,他们没这个胆;直接说中国这政策不行、那政策不行,大概他们自己都觉得既露骨而又苍白;说中国人这也不是、那也不是,他们又得顾忌自己身上还披着“中国人”的外衣。于是,他们就“曲径通幽”,找点所谓的“事实”来说话。在此情况下,为中国人争了大光,证明中国还行的“天河”超级计算机,就自然而然地成了他们说事的靶子、攻击的目标。

  西方国家的“应声虫”的第一种论调是:“研制超级计算机,在中国都是政府投资,仅仅是政治需要,而并非实际应用,并不像美国、日本,纯粹是市场行为。”

  诚然,包括“银河”“天河”在内的国产超级计算机研制,均由政府主导。但“红彬”“泰坦”“京”等世界顶尖超级计算机研发,也都是由美国、日本政府直接投资,IBM、Cray、富士通等公司联合国家科研单位研制的,这与中国研发模式毫无二致。研发超级计算机,从来都是为了解决涉及国家安全与发展问题的重大科学问题和增强综合国力,都不是纯粹的市场行为和商业利益驱动,任何国家无不如此。

  中国的超级计算机,也一直走的是研制与应用的道路。研制“天河一号”时,国防科技大学超级计算机应用创新团队,在宋君强带领下,积极深入用户第一线,逐家拜访重点用户和潜在用户,了解他们对科学工程计算、大数据处理以及高吞吐率和高安全信息服务等多种应用需求,在此基础上提炼出对每秒千万亿次超级计算机设计的技术要求,不断优化机器使用环境,同时向用户宣传每秒千万亿次系统特点,引导用户学习和采用新技术,促进了机器设计与应用的互补互促,为我国新一代超级计算机成为用户“好用”“想用”的机型打下了良好基础。“天河一号”投入使用后,构建形成了石油勘探、生物医药、动漫与影视特效渲染、高端装备制造、地理信息等五大高性能计算应用平台,取得了一批具有国际先进水平的创新成果。

  “天河二号” 研制战役打响后,宋君强又带领团队针对多态应用多元需求问题,认真梳理规划科研方向,在科学工程计算、超大资源规模的云服务平台、大数据处理等方面进行一系列创新完善,使“天河二号”更加“好用”“实用”。此外,科研人员通过多层次容错设计,实现了超大系统的智能化管理,实现了自动监控、检测、诊断、隔离系统运行时出现的故障,全系统连续稳定时间比“天河一号”提高1.5倍,可靠性、可用性迈上一个新台阶。

  如此把事实一摆就不难发现,这些“应声虫”是用“市场行为”描述“主子国家”,用“政治任务”描述“自己国家”,其归根到底还是西方国家“双重标准”在超级计算机领域的翻版。

  “‘天河二号’只是理论速度最快,在以实用性为主要考量的Craph500榜单上名列第六。”这是唱衰中国超算的第二种说法。

  “天河”从夺冠到连冠,都是国际TOP500认定的,而且该机构排名依据并不是理论,而是LINPACK应用实测性能,这是已经实行了30多年、世界公认最具权威的系统排行标准。此后,国际上又出现了HPCC、Craph500、HPCG等其他排行榜,用不同测试程序衡量超级计算机某些方面的应用性能。在Craph500实测中,“天河二号”由于大量提升空间未被挖掘,仅用部分节点参加测试,只获得排名第六。而国际TOP500排名第三的美国“红彬”按HPCG排名竟未上榜,国际TOP500排名第二的美国“泰坦”在Craph500榜上无名。

  “应声虫”们为什么眼睛只盯着“天河”?为什么不同时说说美国机器?看来还是主子的“双重标准”思维在他们的脑袋里作祟。

  “‘天河二号’耗电惊人,不代表人类超级计算机发展方向。”这是他们抹黑国产超级计算机的第三个依据。

  能耗问题,是超级计算机继续向前发展的最大障碍。中国人从“银河”巨型机工程开启时,就开始认识到这一问题应着力予以解决,并为人类破解这一科学难题贡献了一系列创新技术。采用了新型能耗控制机制的“天河二号”,按照评价能耗的Green500排名标准,与位于国际TOP500排名第二、第三的美国“泰坦”“红彬”相当,而远远好于排名第四的日本机器“京”,是一台节能高效的机器。而“应声虫”们竟然拿排名比“天河二号”低两个数量级的机器比能耗,得出“天河二号”高能耗的结论。这不仅是“双重标准”,更是颠倒黑白、危言耸听!

  还有人说:“‘天河二号’用的微处理器,相当部分是进口CPU,根本谈不上自主创新。”

  还是一个科学家说得好:“难道我们建房子,有一部分砖不是自己烧制的,就说这房子不是我们自己建的了?”其实,凭着“飞腾1500”的质量,完全可以100%“中国芯”,之所以只能“部分”,是由于应用软件大部分是进口的,只能在进口微处理器上运行。因此,国产微处理器只能用于服务阵列。

  “中国超级计算机发展重视硬件、轻视软件,‘天河二号’一些用户需要10年时间来编写必要的代码,用户分布单一,应用程度远远低于美国等发达国家。”这是那些网络大V们唱衰中国超级计算机又一论调。

  用户果真需要10年编写代码吗?天河人一针见血地指出:“这是把某些应用领域较长的开发期与在‘天河二号’上实际应用时较短的移植周期混为一谈。”

  又是混淆视听、刻意抹黑!

  听着这些“应声虫”“愤青”怨妇般对国产超级计算机絮絮叨叨,不禁让人想起2010年11月国际TOP500在美国颁奖时发生的一幕。

  那天,国际TOP500撰稿人刚一宣布“天河一号”世界排名第一,会场便像炸了锅似的沸腾起来,与会者发出一片惊愕声。上台领奖的国防科技大学代表刘光明还未走下领奖台,一名美国记者就带着一脸愤怒与不屑,迫不及待地站起来质问国际TOP500撰稿人:“你们觉得以LINPACK应用实测性能为排名标准是科学的吗?”

  自从国际TOP500创立以来,已经运行了30多年的排名标准,从未有人对其科学性提出过质疑,而中国“天河一号”夺得头名了,就有人(包括一些科学家)认为它不科学了。这实在耐人寻味。

  不过仔细想想也是,正如新华社知名记者白瑞雪所言:“超级计算机排名,可不是刘翔与罗伯斯的110米栏比赛,脚往栏上一跨就胜负分明,它显然要复杂得多。”

  国际TOP500机构采纳了质疑者们的建议,在广泛征求业内人士的基础上,又设计了超级计算机高性能共轭梯度(HPCG)基准测试排行榜。

  对于超级计算机高性能共轭梯度(HPCG)基准测试排行榜与国际TOP500排行榜的关系,白瑞雪也有一个非常形象的比喻:“这就相当于两套考卷,国际TOP500运用的LINPACK,是已经使用了30年的标准考卷A卷,而高性能共轭梯度(HPCG)则是近期推出的B卷。前者主要考查计算速度,而后者主要衡量应用性能。”

  2014年11月,国际TOP500机构首先发布第44届世界超级计算机500强排行榜,“天河二号”当仁不让地荣获“四连冠”。次日,国际TOP500组织首次正式发布超级计算机高性能共轭梯度(HPCG)基准测试排行榜,“天河二号”还是位居世界第一。也就是说,无论是考查速度的A卷,还是考查应用性能的B卷,“天河二号”都是“状元”!

  “天河二号”,是名富其实的“世界学霸”“双料冠军”!

  也许这依然难以堵住那些“应声虫”“愤青”们的嘴,他们还会气壮如牛地“鸡蛋里挑骨头”。那就让他们挑好了,只要自己足够强大,就会在挑刺中变得更强大。再说天河人也从来没把第一看得那么重,正如领奖代表卢宇彤说:“尽管‘天河二号’连续几次夺冠,但中国超级计算机离世界第一还早着呢。美国在超级计算机领域仍处于主导地位。”

  倒是外国科学家对“天河二号”前景非常看好。国际TOP500主要撰稿人杰克·唐加拉预言:“在2017年以前,我看不到美国及其他国家有什么机器可以与‘天河二号’竞争。”

 

  尾声:超越没有终点

 

  虽然异构融合体系结构作为主流技术,在超级计算机研制领域风头正劲,但它同样改变不了科学发展“后浪推前浪”的铁律。异构融合时代与计算机技术所经历的电子管时代、晶体管时代、集成电路时代、并行计算时代一样,终将进入“冰封”时期,而且这种迹象已逐渐显露出来。正如中国科学院院士、国防科技大学校长、CPU+GPU异构融合技术创始人杨学军在学术报告《并行计算六十年》中所言:“生物分子模拟、航空宇宙计算、飓风预测等超算高端应用的不断增长,不断推动高性能计算继续向前发展。现在,超级计算正处于从P级向E级过渡时期,而面向E级的超算正面临着巨大的挑战。科学界把这些挑战比作‘墙’,比如‘存储访问墙’‘通信墙’‘可靠性墙’‘能量墙’等等,现在这些‘墙’正随着超级计算机系统运算性能的不断抬升而越筑越高。”

  而与此同时,超级计算机的国际政治地位和国家战略地位却在不断飙升。

  2014年夏,刚从党派纷争动乱中平静下来的乌克兰,又突然陷入动荡,亲俄总统被亲美分子轰下总统宝座,国家外交天平又向北约倾斜。俄罗斯总统为保后院安全,捍然出兵克里米亚。美国和欧盟国家群起从政治、外交、经济等层面“围剿”俄罗斯。面对咄咄逼人的制裁,俄罗斯总统普京放出狠话:“别忘了俄罗斯是战略武器大国!”

  “别忘了俄罗斯是战略武器大国”,既亮出了一个国家的底气,也彰显了当今战略武器的世界政治地位,并标志着大国以战略武器对峙为标志“冷战”再次拉开序幕。

  面对俄罗斯的强硬,西方国家尤其是美国出人意料地保持沉默。那是因为他们知道,自己依托世界上最强大的超算平台研制的那些世上最完备的战略武器系统,不用“晾晒”,世人也早就看在眼里、惧在心里。

  几个月后,美国能源部突然宣布:美国将投资3.25亿美元建造两套超级计算机系统,其计算速度将超出连续四次获得国际TOP500排名第一的中国“天河二号”3至4倍,重新夺回世界桂冠。

  美国能源部官员对此的解释是:“超级计算是国家发展的战略领域,也是美国的传统优势领域。现在这一优势正在发生改变,对此,美国政府不能置若罔闻。”

  媒体和网民对它的解读就更丰富、更有意思了:

  俄罗斯媒体说:“美国这一决定,是在告诉我们的普京大帝:你就别用战略武器吓唬我了,就凭着我比你强过百倍、千倍的超级计算机,就可以永远保持比你强大得多的战略武器系统。”

  美国网民认为:“美国经济遇到麻烦了。政府的这一投资,是在增强推动创新的引擎,牵引经济向前发展。”

  中国的网民说:“山姆大叔在连年削减军费的情况下,还舍得花血本与中国争国际TOP500桂冠,既让人嗅到浓浓的醋酸味,更让人想到了他的‘亚太再平衡’,想到他和日本在中国的东海、南海、香港搅局的那些事。”

  ……

  不管媒体怎么说、网民怎么猜,摆在中国超算人面前的事实是:别人已经指名道姓放马过来。

  正当超级计算机决战硝烟再次燃起之际,经全国人民投票,天河团队当选中央电视台“感动中国”创新团队。

  国家科技进步奖评选委员会也发布公告——“天河一号”超级计算机荣获国家科技进步特等奖!

  面对挑战与褒奖、压力与期待,天河人淡定地说:“大国在超级计算机领域相互超越已成常态的情况下,我们的选择只有一个,那就是超越、超越、再超越!”

  高科技竞争,是一场没有终点的长征。

  征战者永远在路上!

 

  (选自《决战崛起——中国超算强国之路》,国防科技大学出版社,2015年9月出版)

 

  作者简介:

  龚盛辉,湖南江永人,1989年毕业于西安政治学院,现任国防科技大学校刊编辑部编审,中国作家协会会员,湖南省报告文学学会副会长。1994年开始文学创作,先后出版长篇报告文学《铸剑》《决战崛起》《向着中国梦强军梦前行》《国防之光》和长篇小说《绝境无泪》,发表中篇小说《老大》《通天桥》《与我同行》等10余篇,报告文学作品先后获得中宣部五个一工程奖、全军优秀文学艺术奖特别奖、湖南省五个一工程奖,小说作品多次获得全军文艺新作品奖、昆仑文学奖。因创作成绩突出,经总政治部批准记二等功一次。

湖南省作家协会 | 版权所有 : 湘ICP备05001310号
Copyright ? 2005 - 2012 Frguo. All Rights Reserved