核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

时间:2020-07-18       来源:

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

在标準运算技术的时代,推动进步的是 Intel 和由它发扬光大的摩尔定律。但 2012 年之后,当运算技术进入了名为「深度学习」的全新时代,创办于 1993 年的 NVIDIA 却成为了强势黑马。

「NVIDIA 通过深度学习平台所取得的创新,许多都已成为世界标準。我们以 远超摩尔定律的速度推动运算性能飞速成长,促进健康、交通、科学探索等无数领域的突破。」在一场演讲中,创办人兼 CEO 黄仁勋自豪地对数千名观众表示。

去年,站在同一个舞台,黄仁勋说他一直想要找到摩尔定律之后的路。而以神经网络为基础的人工智慧,其爆发式发展到了 2018 年已经过去了五年。而在这五年里,GPGPU成为了人工智慧研发的利器,在运算密集型的深度学习任务上独步天下。NVIDIA 指出,和五年前的 Ferml GPU 架构相比,最新一代的 Volta GPU 架构的浮点运算能力提升了 25 倍。

「摩尔定律 10 年 5 倍,」黄仁勋说,「这就是我们超越摩尔定律的证明。」

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

NVIDIA 开发者社群的扩张迅速,印证了黄仁勋大胆的声明。该公司统计,GPU 开发者在今年将达到 82 万人,比五年前成长了 5 倍;在 NVIDIA GPU 上开发必备的分散式运算架构工具包 CUDA,下载数量超过了 800 万,其中约一半是在过去一年里下载的。不仅如此,该公司提供的 GPU 加速技术还被世界上大量超级电脑协同採用,其 Volta GPU 为美国的 Summit 和 Sierra 两大超级电脑增加了大约 100 PFLOPS。

在美国时间 3 月 27 日的 NVIDIA GPU 技术大会上,该公司带来了多个在深度学习、自动驾驶和机器人领域足以掀起巨浪的新产品。其中最为重头的,则是一年一度的新核弹级显卡 —— 这次,并不是 GTX 11 系列,也不是传闻甚嚣尘上的「矿卡」,而是一台被黄仁勋称为「桌面超级电脑」的工作站:NVIDIA DGX-2。

DGX-2 是一台专门用于人工智慧训练和 / 或推理任务的桌面电脑:

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

这是它的内部结构:

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

你可以看到,在图中 1 和 2 的位置看起来是很多块晶片。其实他们是 NVIDIA 的 Tesla V100 Volta 架构 GPGPU,单枚算力达到双精度 7.8 TFLOPS、单精度 15.7TFLOPS、深度学习 125TFLOPS。

而 DGX-2 单机箱安装了 16 枚 V100,总体性能达到了惊人的 2PFLOPS—— 业界第一台超过百万兆次浮点运算能力的单机箱电脑 —— 称它为超级电脑或许并不浮夸。

但 DGX-2 的算力并非靠堆叠出来,如果它们之间不能实现高频宽的数据互通则无意义。

时间倒回两年前,NVIDIA 有意在深度学习的设备市场上对 Intel 发起直接挑战,推出了 Pascal 架构的 P100 GPGPU。在当时,主流伺服器 PCIe 总线接口的频宽和时延,已经无法满足 NVIDIA 的需求。于是它们开发出了一个新的设备内互联标準,叫做 NVLink,使得频宽达到了 300 GB/s。一个 8 枚 GPGPU 的系统里,NVLink 大概长这样:

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

然而 NVLink 的标準拓扑结构在理论上最多支援 8 枚 显卡,仍不足以满足 NVIDIA 对于新系统内置更多显卡的需要。于是在 NVLink 的基础上,NVIDIA 开发出了一个名专门在显卡之间管理 NVLink 任务的协调处理器,命名为 NVSwitch。这个组建在 DGX-2 上,让 16 枚 GPGPU 中两两之间实现 NVLink 互通,总频宽超过了 14.4 TB。

这个数字创造了桌面级电脑内总线接口频宽的新高,但实现它的目的并非跑分,而在于 DGX-2 可以 1)更快速地训练一个高複 杂度的神经网络,或 2)同时训练大量不同结构的神经网络。

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑
NVIDIA CEO 黄仁勋,背景是 NVSwitch 示意图

N 卡之所以被称为核弹有一种另类的解释方式:它的多核心架构在这个依核心数量论高下的时代显得超凡脱俗 —— 动辄几百、上千个 CUDA 核心,令人不明觉厉。而在 DGX-2 上,16 枚 V100 的 CUDA 核数达到了疯狂的 81,920 核心。这个事实,结合 NVSwitch 技术、512GB 现存、30TB NVMe 固态硬盘、两枚至强 Platimum CPU 和高达 1.5TB 的主机记忆体 ——

黄仁勋用 GPU 深度学习里里碑式的杰作 AlexNet 来举例。研究者 Alex Krizhevsk 用了 6 天,在 NVIDIA GPU 上训练 AlexNet,这个研究首次利用梯度下降法和卷积神经网络进行电脑图像识别,显着优于枝前的手调参数法,拿下了 ImageNet 图像识别竞赛冠军。AlexNet 让 Alex 世界闻名,这 6 天可以说值了。

然而,「同样的 8 层卷积神经网络,我用 DGX-2 跑了一下,只用 18 分钟就达到了同样的结果,」黄仁勋说,「五年,500 倍的进步。」

这说明很多东西。其中有一条:在这五年里,NVIDIA 的技术进步节奏已经无法用摩尔定律来描述了。

DGX-2 主要的应用场景是显着加速高端科研和商业人工智慧产品的研发和面市。它显然不是一台消费级的产品 —— 高达 150 万美元的售价 ……

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

开玩笑的,最终售价是 40 万美元 ……

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

然而即便是 40 万美元的未含税价格,还是让一些手头紧张的工业使用者望而却步。别担心,DGX-2 只是今天 NVIDIA 在人工智慧领域的几个新产品之一,其它还有:

1.DGX 机箱里面的 V100 GPGPU 升级版,记忆体升级到了 32 GB,那些只需要单枚或者少量显卡的研究者,生产力得到解放,可以训练更複 杂的神经网络了:

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

2. 面向包括电影视觉特效、建筑设计等创意工业,推出的 Quadro GV100 显卡产品。Quadro GV100 是一块工作站显卡,里面是两枚 V100 GPU。这块显卡支援 NVIDIA 最新的顶级光线追蹤技术 NVIDIA RTX:

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

3.NVIDIA RTX:如前述,NVIDIA 开发的一种极其複 杂,且运算密集型的光效技术。简单来说,像在真实世界里那样,掺杂的多光源、複杂的环境,导致光线照到不同材质的物品上所呈现出的散逸,以及物品对光源、对其它物品,在曲面、球面甚至不规则表面所产生的反射效果,或者光源照射到玻璃杯产生的不规则投影 ——这些光效和阴影在过去极难通过电脑完美呈现,但 NVIDIA 今天向着亦真亦幻往前走了一步。

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

4.TensorRT 4,新一代的 TensorFlow 推理工具;GPU 对美国科技公司在去年推出的深度学习兼容框架标準 ONNX 兼容;终于可以在 Kubernetes上管理 NVIDIA GPU 了,支援 AWS、Google Cloud Platform、阿里云等。

5. 新的自动驾驶车载运算架构 ORIN。

6. 驾驶虚拟模拟技术 Drive SIM & Constellation。这是一个很有趣的技术,可以让 NVIDIA 以及其它开放平台的科技公司在 GPU 上模拟自动驾驶汽车训练,显着降低开放道路真车训练的危险性。这个技术还有一个独特的用法:接入了该平台的汽车,在未来可以 远程操控,黄仁勋演示了一个司机在会场,用 VR 头盔和手把 远程驾驶一辆汽车躲避障碍并成功停车。

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

7. 机器人开发开放平台 ISSAC,利用了 NVIDIA 在自动驾驶上积累的一些技术,比如高精度地图绘制等。

8.Project CLARA,一个云端医疗诊断的计画。这个计画非常有趣,简单来说,NVIDIA 医院提供基于云端的医疗图像识别超级电脑,一个场景是上传心脏 B 超的即时视频流,云端的显卡运行训练好的神经网络,可以将画面变成 3D 的体积图像,然后即时将器官显示出来,从而生成一个更容易观看的 3D 画面。现场演示的画面还给出了器官功能的即时数据,包括每次搏动的输血量等,令人印象深刻。

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

硅谷是一个 T 恤帽衫和拖鞋统治的地方,而 NVIDIA 的创办人黄仁勋在这里是个相当明显的另类:一身皮夹克的他,工程师出身又负责过市场,演讲起来丝毫没有许多其它科技大佬身上特有的「虚伪」气息。

在 GTC 2018 上,可能觉得自己气场还不够强,他直接站在了椅子上接受记者的提问;他明显接受过公关训练,但在回答提问时的诚恳仍然在科技大佬中显得独特,甚至直接问旁边的公关「你是不是想打断我?但我已经说完了。」人称「核弹教父」的黄仁勋,名副其实。

他吐槽常见的 x86 架构伺服器站,一个机柜动辄数十台伺服器,十几台机柜总成本成百上千万美元。而取得同样的深度学习训练效果,只需几台或者十几台 V100,或者一台 DGX-2,价格至多六位数。这也是为什幺他在演讲时,不断对台下的观众重复:多买更划算! 几乎将一场 GPU 技术演讲变成了电视购物。

「Watch now ‘cause here I come.」 是黄仁勋上台前的暖场歌曲里的一句歌词。

至少在今天,将摩尔定律踩在脚下,黄仁勋和他的 NVIDIA 看起来势不可挡。

核弹教父势不可挡:NVIDIA发表8万核桌面级超级电脑

相关推荐