1995年3月,“曙光1000”大规模并行计算机系统研制成功,5月通过由国家科委组织的国家级鉴定,成为我国第一台实际运算速度超过10 亿次/秒浮点运算(峰值速度25亿次/秒)的并行机。“曙光1000”是继“曙光一号”计算机后我国高性能计算机研制的又一里程碑,是当时国内研制的最高水平的计算机系统。它突破了一大批大规模并行处理(MPP)的关键技术,使中国成为世界上少数几个能研制和生产大规模并行计算机系统的国家之一。该项目获1996年中国科学院科学技术进步奖特等奖,1997年获我国信息领域唯一的国家科学技术进步奖一等奖。
“曙光一号”开启高性能 计算机产业化之路
20世纪80年代,随着世界信息革命的不断深化以及中国改革开放后各个领域研究和生产的发展,高性能计算机的缺乏成了我国信息产业科研以及研制能力发展的“颈瓶”。当时中国并不具备生产高性能计算机的能力,只能从国外进口。由于西方国家的“巴统”禁运,国外发达国家禁止将高性能计算机出口给中国。即使有个别项目特许对中国出口,我国也要付出极大的代价,除了要付高额的采购费用外,计算机的使用还要受到外国人的监视,以防用于国防等敏感应用。这一状况使中国痛定思痛,开始研制自己的高性能计算机。
1990年,在“863-306”主题专家组的支持下,依托中国科学院计算技术研究所成立了国家智能计算机研究开发中心(简称智能中心),负责研制曙光系列高性能计算机,由李国杰出任中心主任。经过三年努力,1993年“曙光一号”并行机研制成功,这是我国第一台全对称的多处理机,在国内率先实现了多线程机制和细粒度并行。在研究过程中,研究小组采取了“有所为,有所不为”和与国际接轨的技术路线,投入的人力和资金大大减少,研制周期大大缩短,为我国自主研发高性能计算机探索了一条新路,得到了用户和政府部门的高度评价。
▲智能中心1990年成立时的工作场所—智能中心小楼
“曙光一号”解决了我国自行研制的通用高性能计算机从无到有的问题。但“曙光一号”的体系结构限制了它的可扩展性,因此,从1993年起,在李国杰的带领下,智能中心开始了大规模并行计算机系统“曙光1000”的研制工作。
“曙光1000”摘取1997年信息最高荣誉
“曙光一号”的研制成功使智能中心具备了研制新一代高性能计算机的基础,但李国杰清楚地知道,“曙光1000”研制的启动需要相当大的勇气,毕竟我国在大规模并行计算机的研制上没有任何技术积累,起步晚,又要迎头赶上,因此如何利用改革开放的大环境,通过学习和自主创新突破大规模并行计算机的核心技术,成了研制“曙光1000”必须要考虑的事情。
从1993年开始,大批著名的专家学者被请到智能中心进行学术交流,其中最重要的一个人就是李凯。李凯是美国普林斯顿大学计算机系的教授,也是早年计算所的研究生,他是当时接触、使用过先进的Intel Paragon系统中为数不多的华人高级学者,与他的学术讨论对智能中心了解MPP体系结构,设计“曙光1000”大有帮助。智能中心广泛邀请国际知名学者进行学术交流,智能中心人员也频繁出访进行学术研讨。智能中心十分重视人才培养,年轻的研究生团队成为“曙光1000”研制队伍的有生力量。
大规模并行机的核心技术是把大量处理机有效连接起来的高速互连网络和每个处理单元的核心操作系统。当时国外提出一种名叫蛀洞路由(wormhole routing)的新互连技术,但国内对这种技术的实现方法还一无所知。李国杰利用出访的机会联系朋友从国外搜集到一批有关蛀洞路由芯片设计的参考资料,带领智能中心率先在国内突破了“蛀洞路由”这一关键技术,研制成功异步通信的蛀洞路由芯片(异步控制芯片调试难度很大,当时国外也没有研制成功),为中国发展大规模并行机探索了一条可行的道路。智能中心探索成功后,国内其他单位也开始采用蛀洞路由技术,其工作机理一直延续到现在。智能中心把处理单元的核心操作系统做得很小巧精致,占用内存很少,为用户提供了更多存储空间,使得“曙光1000”能求解的问题规模大大超过相同处理单元数目的国外并行机。
▲“曙光1000”研制团队部分成员
1994年年初,研制组在昌平龙山宾馆召开了为期10天的研讨会,总结前阶段工作的经验教训,分析和细化了设计思路和工艺路线,并制定了严格的工程管理和工艺规范。这次会议不仅确定了“曙光1000”的技术细节,还展开了人生观和世界观的讨论,一群年轻人在李国杰的引导下讨论为什么要在智能中心做系统,智能中心的战略和远景(vision)是什么,年轻科研人员的价值取向是什么。经过一次次彻夜探讨,研制组最终统一了认识,也从此担负起了国产高性能计算机系统研制及其产业化的重任,并把系统研制定位在基于国际先进技术和面向用户、面向市场上,这一点再也没有动摇过。“龙山会议”后,研制集体在新的基础上开展“曙光1000”正式系统的研制工作。1994年10月调好了第一个插件箱。1995年5月,“曙光1000”顺利地通过了国家科委组织的专家鉴定。
▲“曙光1000”
“争气机”引爆中国超算跨越式发展
“曙光1000”的研制成功不仅使智能中心真正在国内外高性能计算机的激烈竞争中站稳了脚跟,更重要的是使我国的高性能计算机科研和制造水平实现了跨越式的发展,培养了一大批高性能计算机技术开发和维护人才,为下一步我国完全独立自主开发更高性能计算机奠定了坚实的基础。
“曙光1000”的研制成功打破了西方在大规模并行机方面对我国的封锁和垄断,为我国赢得了民族的尊严和荣誉,以至于有人形容“曙光1000”是中国的“争气机”。此外,我国自主研发的高性能计算机在石油、气象、科研、教学、国防、商务等领域可广泛应用,如一个全国范围内的48小时天气预报程序在一般计算机上要运行60多个小时,而“曙光1000”只需要3个小时就能完成相同的任务,极大地提高了预报的准确性。
1997—2011年的15年中,在曙光公司的配合下,智能中心先后研制成功7台高性能计算机,不断刷新国内高性能计算机的最高性能纪录,为中国进入高性能计算机世界三强作出了重要贡献。2010年,峰值速度3000万亿次/秒、中国首个实测性能超过千万亿次的曙光星云系统(“曙光6000”的科学计算分系统)问世, Linpack计算速度达1271万亿次/秒,在全世界的高性能计算机中排名第二,引领了中国高性能计算机向世界之巅冲锋的进程。从“曙光1000”到“曙光6000”,15年时间内,曙光高性能计算机的实测性能增长了80万倍,远远高于国际上高性能计算机平均10~11年性能提高1000倍左右的发展速度。
继“曙光1000”获得国家科学技术进步奖一等奖后,“曙光2000”“曙光3000”和“曙光4000”都先后获得国家科学技术进步奖二等奖,“曙光3000”“曙光4000L”“曙光4000A”“曙光5000A” 分别在2001年、2003年、2004年、2008年被两院院士评为“中国十大科技进展”。
曙光高性能计算机已广泛应用于国家信息关防、石油物探、航天测控、教育科研等多个领域,例如,在国家互联网应急中心已部署总计算能力超过千万亿次的曙光高性能计算机,该系统在网络信息实时获取等技术方面处于国际领先水平,为维护国内社会稳定作出了重大贡献。东方石油物探公司(BGP)是我国石油物探的核心企业,过去一直使用IBM计算机,从2003年起,几乎全部采用曙光高性能计算机。在发现冀东10亿吨储量的南堡大油田的过程中,曙光计算机发挥了重要作用。2009—2016年的8年间,曙光高性能计算机占据中国高性能计算机1/3以上的市场,超过IBM公司和HP公司,实现了在国内市场领先跨国公司的历史性跨越。
▲“曙光5000”
(图文/中国科学院计算技术研究所 国家智能计算机研究开发中心)