“天河2”蝉联5届超算冠军是骄傲是虚名？-科技新闻-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：这是本在三周前就应该写下的文章，不过小编却刻意等到了今天等什么呢？一条本周早些时候公布但并不起眼的消息Green500组织发布《6月期绿色超算排行前500甲》。新一期排行结果果然如此前预料冠军再度易主。半年前由华硕和德国亥姆霍兹中心（GSI Helmholtz Ce...

“天河2”蝉联5届超算冠军是骄傲是虚名？

这是本在三周前就应该写下的文章，不过小编却刻意等到了今天……等什么呢？一条本周早些时候公布但并不起眼的消息——Green500组织发布《6月期绿色超算排行前500甲》。

新一期排行结果果然如此前预料——冠军再度易主。半年前由华硕和德国亥姆霍兹中心（GSI Helmholtz Center）联手打造的黑马“L-CSC”，如今被挤到第四位；新的三强则全部来自日本，且均由日本ExaScaler Inc.和PEZY Computing两家公司携手研发。

纵观Green500（以每瓦性能为指标的排行）的“千变万化”，对比Top500（以最高性能为指标的排行）的“万年不变”，这其中其实只说明了一个问题——在今天的超算世界里，市场更关注的是有着更高实用价值的中小型超算系统，而不是只具备象征意义，“买的起但用不起”的巨无霸工程，如我们的“天河2号”。

超算研发难点在于软件和能耗

在继续吐槽之前，小编想要先澄清一些超算研发的难点和挑战。

外行人士通常都会调侃——中国的超算冠军是靠“堆硬件”堆出来的，核心技术都是别人的，就是比别人多用了几块CPU和GPU而已——这种说法从某种角度看——没错！

业内人士对以上说法通常会反驳——超算绝对不是简单的堆砌硬件，团队在超算领域的研究是拥有核心知识产权的，其中一部分甚至是世界领先水平——从某种意义上来说，其实——也没错！

首先，美国人提供的CPU和GPU并不是“买来即用”的。怎么让成千上万个处理器在物理架构层面互联互通，是需要一定技术的。而这个技术的难度有多大？世界上当然只有少数国家掌握，只不过至于其他的大多数国家，譬如非洲的难兄难弟、南美洲的战略伙伴、中东的石油大亨，以及欧洲那些丁点儿大，自身只发展旅游和金融业的福利发达国家……他们似乎也没有迫切发展超算技术的需要或条件。因此，总体说来，其实有此方面发展需要的国家本质上都已经掌握了相关技术（剩下的只是经验问题）。

其次，海量的处理内核“堆砌”在一起，如何充分利用，并有效管理及合理分配系统资源——对Linux内核进行优化，重点在于改进系统资源的分配和调用效率——是一项巨大的软件工程，需要相当的经验累积和编程技巧（也正因为Linux的开源与开放，所以在超算领域形成了绝对的垄断地位）。因而从以上这个角度出发，小编相信“天河2”是先进的——至少能有效利用到3,120,000个内核，并且通过峰值性能证明了自己。

只不过，这最后要提到的一个难点——功耗，已让不少曾经大力发展“万亿次级”超级电脑的国家都暂停了前进脚步。像“天河2”这样功耗高达17,808千瓦的巨无霸，供电问题不仅只是成为了批评者攻击的“槽点”，更是因为这种先天性的缺陷，使得整个系统从实用性方面看就几乎成了一种“摆设”——敢问，除了当初拿来测试峰值性能那段时间，“天河2”有多少时日曾是“马力全开”的？

“天河2”蝉联5届超算冠军是骄傲是虚名？

全球500强超级计算机榜单最近出炉，入围前十的对比今年夏天的榜单成员基本没变，美国占六席，中国的天河二号仍位居榜首。下面就来透过此图集看看全球最快速的十台超级计算机。

10. 神秘计算机（美国）

这是美国政府运营的一台神秘的、基于无限带宽技术的Cray CS-Storm机器，具体位置不详，是此榜单唯一的一个新入选者。它还是最节能的超级计算机，每瓦特电可每秒进行2386.42百万次浮点运算。最高速度：每秒3.57千万亿次浮点运算总核心数：7.28万个

9. Vulcan（美国）

Vulcan是跻身最新榜单的美国能源部四大超级计算机性能最弱的一台，它目前应用于能源部的高性能运算创新中心。最高速度：每秒4.29千万亿次浮点运算总核心数：39.3216万个

8. JUQUEEN（德国）

JUQUEEN是前十榜单的“常客”，2012年年中以来未曾多落选过。它运营于德国北莱茵-威斯特伐利亚的Jülich研究中心。相比欧洲上榜的另一台超级计算机，它的性能较弱。最高速度：每秒5千万亿次浮点运算总核心数：45.8752万个

7. Stampede（美国）

该来自德州大学的超级计算机是此榜单上的唯一一台戴尔产品，它也是全球最强大的学术用超级计算机。最高速度：每秒5.17千万亿次浮点运算总核心数：46.2462万个

6. Piz Daint（瑞士）

Piz Daint是欧洲性能最强大的一台超级计算机，它运营于位于卢加诺的瑞士国家计算中心，以该中心80英里以外的阿尔卑斯山命名。最高速度：每秒6.27千万亿次浮点运算总核心数：11.5984万个

5. Mira（美国）

Mira是前十榜单的另一位常客，效力于美国阿贡国家实验室。这是它第六次上榜，同时也是连续第四次位居第五位。最高速度：每秒8.59千万亿次浮点运算总核心数：78.6432万个

4. K Computer（日本）

富士通K Computer登上前十榜单的次数比Mira还要多，达到10次。2011年6月首次上榜它便是全球最快速的超级计算机。跟Mira一样，它也是连续4次入眩最高速度：每秒10.5千万亿次浮点运算总核心数：70.5024万个

3. Sequoia（美国）

Sequoia在跻身前500强榜单的时间比富士通K Computer仅晚6个月，第二次上榜便荣登首位。它运行于美国能源部位于加州的劳伦斯利弗莫尔国家实验室。最高速度：每秒17.2千万亿次浮点运算总核心数：157.2864万个

2. Titan（美国）

该美国超级计算机也是能源部的机器，它运行于位于田纳西州的橡树岭国家实验室。在最近的4次评比中，它都位居第二位。最高速度：每秒17.6千万亿次浮点运算总核心数：56.064万个

1. 天河二号（中国）

该胜出者运行于位于广州的中国国防科学技术大学。最高速度：每秒33.9千万亿次浮点运算总核心数：312万个（皓慧）

“天河2”蝉联5届超算冠军是骄傲是虚名？

这里小编来给大家做一个简单的计算和比较，以帮助更好地理解“17,808千瓦”究竟是个什么概念。

中国大陆第一座大型商用核电站——大亚湾核电站，共装配6个发电机组，总装机容量6,120,000千瓦，其中70%为香港供电，30%为广东供电。如果“天河2”全负荷开机，17,808千瓦瞬间没了，也就是供给广东的那部分电力，其中的1%被广州的“一栋楼”给用掉了。2013年全北京市社会用电总量为913亿度（千瓦时），这与三峡发电站全年发电量相当——988亿度，而如果“天河2”马力全开运转一年，17808 X 24 X 365 = 155998080度电，约1.56亿度，北京0.17%的城市用电没了——看起来比重似乎不高，但试想一下过去几年出现的冬夏两季“电荒”，以及0.17%北京用电所能覆盖的人口数量就感受到其可怕了。而这只是广州的“一栋楼”哦。

功耗问题同时也还带来了散热的问题。像“天河2”这种级别的超算系统，往往需要用到几层楼（也就是一整栋建筑）来统一解决供电、散热以及主机房占地等多方面考虑。换用通俗一点的话来说，这些最后其实都是“钱”的问题——“天河2”造价大约1亿美元，而马力不全开，每年仅电费就要人民币约1亿元；而如果马力全开，电费则至少要人民币1.5亿元。以上还未包括其他维护成本哦。

令人反思的“金牌文化”

当然，如果说“天河2”是形象工程，那就肯定过分了。在首次摘得Top500桂冠时，“天河2”是令国人骄傲的。

但是，在连续5次蝉联该榜榜首之后，主流媒体还继续把这一头衔拿出来说事，还继续当作是一种荣耀……这就有点“抱着四大发明不思进取”的感觉了……如今，主流的超算研究方向早已不再是追求极致的Top500排名。至少不是在现有的处理器技术上通过“堆砌”更多硬件，来打造出一台可以荣获“世界第一”，但同时也可以吞噬一座小型核电站的“能源杀手”。（有关超算处理器技术的深入分析，可以今后另外开篇讨论，一部分内容可以参见《易评:从英特尔收购Altera看"国产芯"离世界有多远》）。

这里我们还可以参照美国能源部在今年初的一些动作。该机构虽然跟IBM和英伟达签了拟在2018年打造全新“百亿亿次级”（Exascale）超级计算机的合同，但同时我们也要注意到——美国能源部其实一共向五家企业（AMD、Cray、IBM、英特尔和英伟达）分别注入了数千万美元的研发投资，目的是通过对处理器技术的革新，来实现划时代的“百亿亿次级”超算系统。

美国政府并不是不可以利用最新英特尔CPU和最新AMD或英伟达GPU打造出一台超越“天河2”的怪物——当前排名第二的“泰坦”超级计算机，是Cray公司于2011年基于美国橡树岭国家实验室“美洲虎”超级计算机升级而成，采用的还是AMD的Opteron系列CPU和英伟达的Tesla系列GPU。这足够落后了吧？试想我们上次在主流媒体上看到Opteron处理器是啥时候？——然而，如果简单地用更多CPU和GPU来打造出超越“天河2”的超算系统，“投资”与“回报”则很可能无法形成正比。这里我们可以对比一下排名第一的“天河2”与排名第二的“泰坦”在性能和功耗两项指标上的具体差别：

“天河2”峰值性能为54,902.4 TFLOP/s，最高性能为33,862.7 TFLOP/s，功耗为17,808千瓦。“泰坦”峰值性能为27,112.5 TFLOP/s，最高性能为17,590.0 TFLOP/s，功耗为8,209千瓦。基本上，“天河2”的各项指标约等于“泰坦”各项指标的两倍，但这里有个非常值得注意的关键词——“约等于”，向上“五入”还是向下“四舍”是有差别的。

简单说，“泰坦”的功耗乘以2要小于“天河2”功耗水平，而后者在功耗超过前者两倍的情况下，性能却低于前者的两倍。也就是说，这种堆砌硬件的性能提升是“非线性”的，达到一定规模后，一加一未必还能等于二。

如果“泰坦”的功耗就已经让经费被大幅缩减的美国能源部难以承受，一个性能虽然更强，但运营成本却陡增的超算系统，显然更是没有实用意义——这种认识其实在过去几年的超算研究领域十分普遍，因而越来越多的企业和政府机构开始关注起Green500排行——一个在单位能耗标准下，提供更高计算性能的排行。而在这样的比较之下，我们也看到了更频繁的超算技术更新与交替。

可较为遗憾的是，翻遍过去几期的Green500排行，前50甲里都从未曾有过“大陆超算系列”的身影。我们号称有世界领先的自主技术，但却在一条不切实际的道路上越走越远。

说到这里，又不得不吐槽一下我们饱受争议的“金牌文化”——从学校教育，到代表国家的体育竞技，我们自小被灌输“只能做最好”的思维模式，什么都要争到第一，否则就没有任何意义——于是，在奥运会上，我们以“金牌榜”来激励国民（欧美大多用奖牌榜），金牌得主回到故乡能享受英雄般待遇，而铜牌得主就……我们没见过某地方政府高调慰问铜牌得主吧？在校园里，我们以“成绩好坏”给学生排名，成绩最好的一批学生会集中到一起享受最好的师资待遇，至于其他成绩一般者……若未来能成大器，那必然是有幸接受到了非我国式传统教育；而今再延伸到超算领域，一个“世界第一”的头衔又是让全国媒体沉浸在骄傲与欢快中……可现实地看待问题，大陆企业若想买套“性价比”高的超级计算机，最后恐还是得绕道台湾才有满足要求的产品。

“五连冠”的成绩并非终点，小编相信最终实现“八连冠”，甚至“十连冠”也不会是梦，毕竟已经没有人在做这个方向了。如果我们还是抱着“世界第一”的虚名不放，则恐怕只会错过更多。

我们都说，“科技是第一生产力”，而中小企业则正是这股生产力的中坚组成。如今在互联网泛滥的时代，工业4.0标准普及的时代，任何研发都不可避免的要用到高性能计算机系统，尤其是大学和科研部门的学术研究（Green500排行中很多都是大学和科研机构拥有的超算系统）。可我们只是拿出了一个“天河2”，只是照顾到了国家级科研中心的需要。我们还有很多中小企业和科研机构，他们并非都有能力为“天河2”买单。

当然，一些人会认为我们既然能打造出“天河2”这样的巨无霸，那么再改造出更小型的超算显然也不会是个问题。对此，小编从未有过怀疑。

不过，对于我们集中全力冲击和占领性能最高峰的战略，小编恐不能完全认同。我们已经连续5次蝉联Top500冠军宝座，但同时也已经连续5次错过了跻身Green500前50强（不要求第一）的机会。我们并不是造不出有资格进入Green500的产品，我们没有这么做，只能说明我们不予重视。这其实又是一种中国式“金牌文化”的体现。

这种文化最终会给超算发展带来什么弊端？小编斗胆做个猜测——凡不是以刷入Top500榜单为目标的超算项目，都难以获得国家最大支持。而为了打造出能代表国家实力的超算系统，我们又会不惜一切代价使其达到性能的最高峰。但与之同时，为了达到这个高峰，我们也必然会失去——失去学会在性能与能耗之间寻找平衡，学会在小型但足够用的超算系统里实现最优化……更重要的是，没有Green500的资格，我们可能还会错失大量国际商业超算市场的机会——而最后，我们又要回到价格战上，又要以低价示人。中国产品何时才能走出这样的怪圈？

“天河2”蝉联5届超算冠军是骄傲是虚名？
来源：互联网发布日期：2015-08-08 21:03:00 浏览：15374次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

“天河2”蝉联5届超算冠军 是骄傲是虚名？ 来源：互联网 发布日期：2015-08-08 21:03:00 浏览：15374次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

“天河2”蝉联5届超算冠军是骄傲是虚名？
来源：互联网发布日期：2015-08-08 21:03:00 浏览：15374次