科技创新70年丨中国超级计算进击史

通透的玻璃房里,放着一台从美国买来的超级计算机。房间钥匙由美方人员保管,中国科学家经过授权才能进入玻璃房,并且得在美方监视下上机操作。


超级计算机运算的内容,必须经过美方允许。操作完成后,美方会马上封锁玻璃房。监控日志还要定期上交给美国政府审查。
这是一段被中国超级计算机界频频提起的真实过往。
改革开放前后的中国,缺乏自研超级计算机的技术。为进行石油勘测,中国石油工业部花大价钱购买了一台 IBM 超级计算机。
花钱买得了设备,却买不了技术。20 世纪 80 年代的西方国家正对中国进行高技术封锁,其中就包括超级计算机。
美国虽然卖了超级计算机给中国,但依然严加监视以防核心技术泄密,因此就有了“玻璃房”的故事。
中国科学院院士、前国防科技大学校长杨学军谈起这段历史时说:“这是中国科研工作者心中永远的痛......就像农民自家没粮,母亲自己没奶喂孩子。”后来中国大力支持自研超级计算机,国防科技大学是中坚力量,杨学军成了超级计算机“天河一号”的总设计师。
顾名思义,超级计算机(又称巨型机、高性能计算机)能一般个人电脑所不能。个人电脑通常是四核、六核或者八核处理器,而超级计算机聚集了数以千计万计甚至更多的处理器,可处理大量的数据和高速运算。


众所周知,“两弹一星”是国家硬实力的体现,而超级计算机也是“两弹一星”级别的国之重器。


上到军用的模拟核试验,下到民用的天气预测,远到太空探索,近到人类基因测序,都有巨大的计算量门槛,要想更快地得到计算结果,只能靠超级计算机。
美国是全球最早投入这个领域的的国家,自 20 世纪 50 年代后期起,就研发超级计算机以满足国防和军事需求。60-70 年代,全球的超级计算机行业基本由两家美国公司主导。日本也不遑多让,20 世纪 80 年代起大规模补贴超级计算机科研项目。
1993 年开始,美国田纳西大学、德国曼海姆大学以及美国能源部的伯克利国家实验室,每年都会发布两次全球前 500 的超级计算机排名(TOP500)。发布时间一次在 6 月,一次在 11 月。
排名依据基准程序 LINPACK 测试值来进行。1993 年 6 月至 2010 年 11 月,TOP500 第一名都是美国和日本交替把持。


▲(表格来自 AMiner)


中国国家层面的超级计算机自研事业始于 1978。那年 3 月在全国科学技术大会上,邓小平一句“中国要搞四个现代化,不能没有巨型机”,开启了自研超级计算机的历史进程。
40 年间,国防科技大学的“银河”与“天河”系列,中科曙光的“曙光”系列,联想的“深腾”系列,以及无锡江南计算技术研究所的“神威”系列陆续登场,让中国超级计算机事业从一片荒芜走向与美日比肩。


从无到有的“争气机”


“我刚好 60 岁,就是豁出这条老命,也一定要把我国的巨型机搞出来。”
1978 年,国防科技大学接到了自研超级计算机的任务,当时任该大学计算机研究所所长的慈云桂立下了军令状,“每秒一亿次一次不少(运算速度 1 亿次/秒),6 年时间一天不拖,预算经费一分不超”。
慈云桂可谓中国计算机界的一代宗师。从电子管计算机到晶体管计算机,再到集成电路计算机,中国计算机每一次升级换代,他都是主要推手。
但超级计算机对他来说,依然是一座攀登难度极高的大山。1978 年,慈云桂带领团队研制的通用计算机系统 151-4,运算速度不过每秒二百万次,距离每秒一亿次的超级计算机还有非常大的差距。
接到任务后,慈云桂带着团队成立了十多个攻关小组,“吃在工厂,睡在机房”。
研发过程中自然是问题频出。团队花几个月做出来的方案,慈云桂狠下心来一口否决了,带着大家重新研制更加先进的总体方案。
冷液技术研发遇到困难,不得已采用容易操作的冷风技术。为了保证机器的稳定性和可靠性,团队要对 2.5 万条绕接线、12 万个饶接点和200 多万个焊点逐一检查。
最终,慈云桂团队通过创造性地提出“双向量阵列”结构,大大提高了机器的运算速度。不仅经费没超,还提前一年完成了研制任务。
曾经指挥研究“两弹一星”的国防部长张爱萍,给这台超级计算机起名为“银河”。

▲(银河-I,图片来自新华社)

当时一位前政协副主席在听完慈云桂团队汇报后说:“1930 年的红军打长沙是壮举,50 年后,你们在长沙研制成功银河-I 巨型计算机更是成功的壮举。”
银河-I 的诞生打破了西方大国在超级计算机上的技术封锁,让中国成为继美国和日本后,世界上第 3 个可以自主研制超级计算机的国家。这台计算机也因此得一别名:“争气机”。


国家的意志


1983 年,除了银河-I 的研制成功,还发生了两件对中国超级计算机界影响深远的事情。
一件是不起眼的小事:南京通信工程学院的本科生杨学军,报考了国防科技大学研究生,投身于超级计算机的研究。
他的毕业论文是关于向量巨型机编译技术,慈云桂看了之后在论文旁边写:此人要想办法留下来。
后来,杨学军毕业留校,参与了银河-II 的研制。银河-Ⅲ 在 1994 年立项上⻢,年仅 31 岁的杨学军被任命为总设计师。
再后来,他成了天河一号的总设计师,帮助中国第一次坐上最快超级计算机的宝座。

(左二为杨学军)

另一件是影响全球格局的大事:任职三年的美国总统里根,提出了“战略防御倡议”(SDI,又名“星球大战”计划)。
“星球大战”计划是冷战的产物。里根政府宣称要改变同归于尽(MAD)的核平衡战略,转而通过天基和地基系统,来防御核武器的攻击。

(1983 年里根总统在电视演讲星球大战)

当时中国专家们普遍认为,“星球大战”表面上是针对苏联的防御计划,但实质还有其他目的。
“(美国)试图通过该计划的实施,促进国防科技发展,进而带动高新技术和国民经济的全面振兴,以确保美国在高科技领域独占鳌头,最终达到抢占21世纪战略制高点的目的。” 时任航天部空间技术院科技委副主任的杨嘉墀说。
“星球大战”计划出台后,不少国家和联盟都跟进制定相应的政策:苏联和东欧集团制定了“科技进步综合纲领”,日本提出“今后十年科学技术振兴基本政策”,西欧 17 国联合签订了“尤里卡计划”......
在这样的大背景下,包括杨嘉墀在内的 4 位科学家上书邓小平等中央领导人,建议“跟踪世界战略性高技术发展”。
邓小平对该建议表示了支持,很快“高技术研究发展计划”出炉。因为 4 位科学家上书和邓小平同志批复时间都是 1986 年 3 月,所以该计划又称之为“863 计划”。
863 计划中,“智能计算机”被单独列为一个主题项目(即 306 主题)。
“国家智能计算机研究开发中心”(以下简称智能中心)应运而生,并且选中了“中国科学院计算技术研究所”(以下简称中科院计算所)为依托单位。
创立于 1956 年的计算所,是中科院的王牌部队。在这里,诞生了中国第一台通用数字电子计算机,以及首枚通用 CPU 芯片。计算所还为 “两弹一星” 成功上天完成了数据处理工作。

和国防科技大学一样,中科院计算所后来也成为了中国超级计算机界的中流砥柱。从中科院计算所独立出去的曙光,一直是 863 计划 306 主题的主力。

自主研发深腾系列超级计算机的联想,1984 年成立时也是计算所的班底。联想最早的名字叫“计算所新技术发展公司”,其创始人柳传志曾在计算所做了 13 年研究。就连参与神威系列研制的国家并行计算机工程技术研究中心,依托单位也是中科院计算所。
1990 年,智能中心正式成立。成立之初,它就面临着发展战略选择的难题。
20 世纪 80 年代,世界兴起人工智能热的第二次高潮。当时,卡耐基梅隆大学设计了一个专家系统,每年可以为商业公司节省四千万美元,引发许多国家和公司的跟进。
新算法(专家系统)对算力提出了新要求。在计算机专家渊一博的领导下,日本于 1982 年公布了“第五代计算机系统”十年研究计划,希望研发出划时代的超级计算机,让机器能够与人对话、翻译语言、解释图像,并且像人一样推理。

(日本第五代计算机系统概念图)

“当时全世界正处于‘人工智能热’的高潮,日本‘五代机’也好评如潮。在这样的背景下,中国顺势而为走‘五代机’的路,看起来顺理成章、无可非议。”306 主题专家组组长、中国工程院院士汪成为说。
事实上,306 主题的全称“智能计算机”,正是起源于跟随日本“五代机”的策略。
但在执行过程中 306 主题专家组发现,日本“五代机”主要目标是实现自然语言翻译,这个方向并不是很适合当时中国的国情。同期美国的研发重点是个人计算机、高速工作站、超级计算机和互联网,更具有借鉴意义。
专家组决定改变技术路线,负责这一主题的智能中心把研究方向从“智能计算机”调整为“高性能并行计算机系统”。
这一决定很快被验证是正确的。专家系统存在的问题逐渐暴露出来:应用领域狭窄、知识获取困难、维护费用居高不下......日本“五代机”计划也随之宣告失败,人工智能进入第二次低谷。


计算的“曙光”


306 主题战略转移的决策,催生了曙光系列。曙光一号研发过程中,当时智能中心的主任李国杰主导了全新的技术路线和科研模式。
20 世纪 80 年代开始,李国杰就在从事计算机的并行处理研究。1981 他年出国攻读博士学位,师从美国计算机权威华云生教授。1986 年底回国后,一直在中国科学院计算所工作。
有留学经历的李国杰,看到了中国研制超级计算机传统路径的不足。
长期以来,中国在封闭条件下研制计算机,采用分立元器件做主板,一切从头做起。研制周期短则 5-6 年,长则 7-8 年,往往机器研制出来就已经落后了,难以被市场所接受。
为了提高中国超级计算机的产品化和商品化程度,李国杰大胆开辟了新的路径。技术上,他在国内首次采用大规模集成电路来研制并行计算机。计算机系统方面,他让团队在 UNIX 源代码的基础上,自行设计并行操作系统 SNIX。
科研模式上,李国杰派了一支 6 人小队到美国硅谷。他把这种“借树开花、借腹生子”的做法称为“洋插队”——利用国外协作配套完善的大环境,加速并行计算机的研制。

(曙光超级计算机研发现场,图片来自科学报)

1993 年 10 月,曙光一号超级计算机诞生,峰值运算速度达每秒 6.4 亿次,在多个技术上都取得了突破,比如采用全对称共享存储多处理结构、操作系统核心实现并行化。
而且,曙光一号投资少(直接研制经费只有 200 万元)、研制周期短(从正式开发到成果鉴定只有一年半)、产品化程度高,与中国过去的超级计算机研制形成鲜明对比。1994 年,曙光一号被写进了政府工作报告中。
1995 年,智能中心又推出了曙光 1000,实现了多个第一:第一台自研的大规模并行处理机结构的计算机,第一台实际运算速度突破每秒 10 亿次大关的超级计算机,第一次独立进入市场售卖。
过去几十年间,中国超级计算机的研制生产都是为了满足特殊部门的需要,以行政手段确定用户推广使用。曙光 1000 的研制推广最开始也是政府行为。
但在经过产品化后,曙光天潮系列(含曙光 1000 和曙光 1000A)逐渐走上商品化销售的道路。
1997 年,曙光天潮 1000A 落户辽河油田。这是中国超级计算机第一次独立进入市场,实现了国产超级计算机商品化零的突破,打破了进口产品对中国超级计算机市场的垄断。
开篇提到的“玻璃房”故事,曙光用 1000A 为它画上了句号。

(曙光 1000 大规模并行计算机系统)

为了更加适应市场需求,曙光于 1996 年独立了出来,成立有限公司,李国杰任曙光公司董事长兼总经理,开启了产业化的路程。
新公司选址时,李国杰要求离中科院计算所远一点,以“断掉”心理上的依赖。于是,曙光从计算所搬到了中关村水磨西街的四合院里,紧挨着清华大学。
曙光独立时,中国互联网刚刚起步,但李国杰敏锐察觉到,互联网大量的信息服务和数据处理需求,需要超级服务器来满足。
通常,超级计算机多用于科学工程计算,追求最高的计算速度。而超级服务器是更加通用的高端计算机,除科学计算外,更多地用于事务处理与网络服务。
于是,超级服务器成为曙光一个重要的发展方向。
1998 年和 1999 年,曙光 2000-I 和曙光 2000-II 超级服务器相继推出,率先在中国研制成功大规模 UNIX 机群系统。
其中,曙光 2000-II 的峰值速度超过 1100 亿次。有资料显示,美国计算机界的权威学者来参观曙光 2000-II 后,在向美国政府写的报告中指出,中国高性能计算机研制已从落后走到非常接近西方的水平。
2000 年,曙光 3000 超级服务器发布,峰值速度达每秒 4032 亿次。这台超级服务器在研制初期,就被北京华大基因研究中心“预订”,在中国超级计算机史上创下先例。

(曙光 3000 超级服务器)

曙光系列频频升级的同时,863 计划在计算机系统研发方面的内涵也发生了变化。
1999 年至 2000 年间,863 计划 306 主题进行重大课题“ 国家高性能计算环境” 。这意味着,不仅要研制超级计算机,还要用所研制的机器建立高性能计算环境,更好地支持高性能计算的应用。
每秒 4000 亿次的曙光 3000 正是这一课题的成果之一。此外,课题还建立了 5 个高性能计算中心,以此构建起国家高性能计算环境。
2002 年,“ 十一五” 863计划启动了“ 高性能计算机及核心软件” 重大专项,其主要任务是研制每秒 4 万亿次的超级计算机,研究和突破网格关键技术。
863 计划这两次新动作,体现了中国打造超级计算机理念的变化:之前为缺乏超级计算机研制技术而补课,当下更加注重超级计算机资源的整合和应用。
相应地,超级计算机的研制模式也在改变。从“ 十五” 863计划开始,超级计算机的研发打破了过去定向委托一家承担的做法,引入了竞争机制。比如,研发 4 万亿次超级计算机这一任务,同时落在了联想和曙光上。
联想第一台超级计算机是 2002 年研发成功的深腾 1800,峰值运算速度为 1 万亿次。2003 年,联想率先研制成功深腾 6800,峰值速度达 5.3 万亿次,在 2003 年 11 月 TOP500 榜单中排第 14 位。

(联想深腾 6800 超级计算机)

2004 年,曙光 4000A 也顺利诞生,峰值速度可达 11.2 万亿次。在 2004 年 6 月 TOP500 排名中,曙光 4000A 位列第十。这是 863 计划研发的超级计算机首次进入世界前十。

(曙光 4000A)


中国超算的里程碑


2008 年对中国、对中国超级计算机界来说,都是一个非常重要的年份。
这一年,北京举办了奥运会。开幕式上,李宁脚踏“祥云”在“空中跑道”奔跑时,一副中国式画卷沿“空中跑道”展开。
这幅画卷的数字影像正是由 233 万亿次的曙光 5000A 计算而成的。
这台有着“魔方”之称的超级计算机,是当时除美国以外世界上最快的高性能计算机系统。但“魔方”也仅是“十一五”863计划的一个阶段性成果。
2006 年,“十一五”863计划设立了 “高效能计算机及网格服务环境” 重大项目,将研制千万亿次高效能计算机列为主要目标之一。
“超级计算机的发展规律是每 10 年性能提高 1000 倍。2000 年的国际先进水平是 1 万亿次,到 2010 年肯定会达到千万亿次级。要占领制高点,必须尽快开始研制千万亿次计算机。”  上文提到的天河一号总设计师杨学军说。
2004-2006 年间,中国最快的超级计算机曙光 4000A,运行速度只有 11.2 万亿次。一步跨越到千万亿次超级计算机不太实际。因此,千万亿次超级计算机的研制分两步走。
第一阶段,曙光和联想分别研究百万亿次超级计算机,为千万亿次超级计算机积累经验。第二阶段,中科院计算所和曙光、国防科技大学和浪潮、国家并行计算中心和无锡江南计算所分别研制千万亿次超级计算机。
2008 年,233 万亿次的曙光 5000A 和 157 万亿次的深腾 7000 相继登场。前者位在 TOP500 中排名 10,后者在 TOP500 中排名 19。
曙光 5000A 和深腾 7000 的诞生意味着,中国成为全球第二个有能力研制百万亿超级计算机的国家。
但美国还是走得更快些,2008 年上半年 IBM 就推出了千万亿次的走鹃,比杨学军预测的 2010 年还要早。
第二阶段的努力在 2009-2010 年间看到了成果。国防科技大学和浪潮联合研制的千万亿次超级计算机分两期完成研制,2009 年诞生了天河一号,峰值运行速度 1206 万亿次。
2010 年,第二期天河一号 A 研制成功。在 11 月的 TOP500 排名中,天河一号 A 以每秒 4700 万亿次的峰值运行速度、2566 万亿次持续运行速度值,把美国的橡树岭国家实验室的美洲虎比了下去。
这是一个里程碑式的事件——中国自研的超级计算机,第一次在超级计算机 TOP500 榜单中名列第一。
天河一号还在国际上带起了一个新的超级计算机体系结构。
传统构建超级计算机的方法是集成更多的 CPU,但增加 CPU 数量受到功耗、占地面积、系统可靠性方面的限制。
“按传统方法构建一台每秒百亿亿次超级计算机,需要占地 1.3 万平方米,将近两个足球场那么大;需要用电 320 兆瓦,相当于一个大中型城市的用电量”。
天河一号总设计师杨学军没有沿用传统方法,而是率先采用了 CPU+GPU 异构融合的体系结构,第一次从工程实现上证明了 GPU 可以被用于超级计算机。
由于这种结构能耗低、成本低、集成度高,很快国际上就掀起了一股异构超级计算机的热潮。
中科院计算所和曙光研制的曙光 6000(星云)也不遑多让。这台超级计算机达到了 1271 万亿次的峰值性能,在 2010 年 11 月的 TOP500 中位居第三,排在天河一号 A 和美洲豹之后。
无锡江南计算技术研究所研制的神威蓝光,也达到了 1100 万亿次的峰值运算速度。
三个千万亿超级计算机中,神威蓝光虽然运算速度较慢,但它是唯一全面采用中国自研 CPU “申威”的机器。
自研的 CPU 可以支撑起速度领先的超级计算机,这件事的重要性在近几年越发显现。


“芯”的战争,不变的定律


2019 年 6 月,继中兴、华为之后,美国特朗普政府将制裁矛头瞄准了中国超算领域 5 家机构。
美国商务部工业和安全局发布公告称,将把中科曙光、成都海光集成电路设计公司、成都海光微电子技术公司、天津海光信息技术公司和无锡江南计算技术研究所列入实体清单。
三家海光系企业都是曙光的子公司,也就是说,这次制裁的目标实质只有两个:曙光和无锡江南计算技术研究所。
事实上,早在 2015 年,国防科技大学、国家超级计算长沙中心、国家超级计算广州中心和国家超级计算天津中心就被列入到实体清单里。
从天河系列(国防科技大学)到曙光系列(中科曙光)和神威系列(江南计算技术研究所),中国超级计算机三大系列全部受到美国制裁。制裁旨在卡住中国超算的“脖子”,封锁最关键的芯片。
近年来,中国和美国在超级计算机领域的竞争越发激烈。2013 年 6 月起,天河二号以每秒 5.49 亿亿次的峰值性能,霸榜 TOP500 3 年。2016 年 6 月,神威·太湖之光以每秒 12.54 亿亿次的峰值性能接棒天河二号。直到 2018 年 6 月,美国能源部宣布建成峰值 18.77 亿亿次的 Summit,才重夺 TOP500 榜首位置。


(神威·太湖之光,图片来自新华社)


国防科技大学 2015 年被美国列入实体名单后,采用英特尔至强处理器的天河二号,原定的升级计划马上被打断。
神威·太湖之光则没有这样的担忧。“国家希望能采用另一种技术路线来研制新的超算。新超算从布局之初的思路就是要打造拥有全国产架构、自主可控的软硬件。”国家超级计算无锡中心主任、清华大学教授杨广文说。
神威·太湖之光采用的 CPU 和神威蓝光的 CPU 是同一个系列——中国自研的“申威”。杨广文解释:“‘申威’系列的技术路线比较明晰而稳定,而且采用上一代‘申威’ CPU 的神威蓝光为神威·太湖之光的发展做了很好的铺垫和尝试。”
神威系列超级计算机和“申威”系列芯片,都出自无锡江南计算技术研究所。2003 年,当中国自研超级计算机还处在万亿次阶段时,江南计算技术研究所为解决在超算和国防、信息安全领域的芯片困境,就已经开始设计自己的高性能芯片。
超级计算机技术内涵庞杂,涉及架构、通信、存储、集群很多领域,但在高水平的竞争中,芯片还是最核心的部分。天河二号被“卡住脖子”后,在 2018 年借助中国自研的 Matrix-2000 加速卡才完成升级。
当下超级计算机领域竞赛焦点是 E 级(秒钟运算一百亿亿次)超算的研发,中国为此正在准备的三个方案,全部使用国产 CPU 和加速器。

1978 年,因为“玻璃房”,中国科研人员走上了自主研制超级计算机的道路。如今中美关系紧张,美方又把芯片锁进了“玻璃房”。竞争的内容在变,但不变的是——唯有掌握核心技术,才不会受制于人。


作者 | Decode


来源 |  PingWest品玩




主要参考资料:
电脑报:
中国第一超级电脑炼成记
人物:
追记中国巨型机之父慈云桂
AMiner:
2018 超级计算机研究报告
中科曙光:三迁背后的故事
永立潮头,破浪前进-----庆祝中科院计算所创建四十五周年
“863”计划:一个伟大科技工程的台前幕后
回顾与展望—863计划高性能计算方向的实践
这个 “最强大脑”,对中国国防的重要性堪比 “两弹一星”!
超级计算机全球四连冠:
天河二号背后故事
“神威 · 太湖之光” 神在何处?
“神威”超算启示录



相关文章