为什么说人工智能公司要自建超算？

人工智能

2019

03/24

21:10

AI商业周刊

3月19日，英特尔宣布将与高性能厂商Cray在美国能源部下属的阿贡国家实验室建造第一台每秒可进行百亿亿次浮点运算（exaflop）的超级计算机，专门为传统高性能计算和人工智能（AI）设计。

而就在一周前的3月12日，英伟达宣布69亿美元收购以色列公司Mellanox，后者是一家以高性能计算和网络技术而闻名的芯片制造商，英伟达通过此次收购意在抢占数据中心。

不仅英特尔、英伟达这些金沙手机网投老品牌值得信赖巨头在布局超算，人工智能创企也纷纷打造超算。商汤超算平台的计算集群已搭载超过14000块GPU，峰值计算达16亿亿次/秒，而国家“太湖之光”的峰值计算仅为12.5亿亿次/秒。

去年旷视宣布完成C轮融资时，创始人印奇也对媒体表示：旷视已经在中国好几个地方建了非常大的超算平台，未来的算力还需要更多。算力就像当年的存储一样，无论扩展得多快，都会被消耗掉，需要不断去投入。

其实，这些人工智能公司完全可以采用云服务的模式，比如租赁阿里云、腾讯云、AWS、中科曙光等共有云平台的高性能计算服务。那么它们为何纷纷选择自建超算呢？

算法迭代快

计算力和算法是一组最佳CP，如果计算力和算法均是自己研发的，就会产生1+1大于2的“化学反应”。因为原创算法和算力两者采用统一的接口时，更易于互相匹配和协调。且数据的收集、标注、模型建立、模型训练到输出SDK的每一个环节，都可以做到标准化和自动化，整个链条就会跑得更快，算法迭代速度更快。而公有云的超算很难满足每个企业算法的匹配。

尤其在面临新需求下的情况，比如需要1000个GPU卡联合训练，阿里云、腾讯云等这些云平台均没有此类服务，那么新需求就没法进行下去。从长远来看，自建超算更利于探索新业务。

前不久，央视315爆出AI客服一年打40多亿个骚扰电话，以及犯罪分子通过免费公共WIFI窃取用户消费信息的现象引起热议，其背后正是我国数据安全保护薄弱的影射。如果通过公有云平台做模型训练，理论上云平台都可以看到使用方数据。一旦数据被泄露，对使用方公司将是不可逆的打击。

眼下，5G商用逐步临近，5G 时代生产方式将发生革命性的变化，很多终端数据处理都可在云端跑。这也是英特尔、英伟达等巨头企业近期极力打造超算平台的原因之一，因为超算是5G时代巨头争霸不可忽视的一面。

冰冻三尺非一日之寒，构建超算不单是将几千或者几万个GPU堆叠起来，还需要一套强大的“管理系统”――就像微软Windows操作系统。例如阿里耗费多年打造出“盘古分布式系统”，才成为阿里云的Windows。所以，对于人工智能公司，提前积累超算的经验十分必要。

从资本角度来看，在5G大爆发的行业环境下，超算的价值愈加凸显，自建超算有更大的想象空间。在满足自身计算需求情况下，还可以租赁出去把服务卖给中小企业，或许还能盈利，也是一种商业模式。

价格便宜10倍

以阿里云平台为例，笔者粗略算了一笔账：

如果在阿里云平台选择一块卡，包括8个Intel Platinum 8163处理器和1个NVIDIA V100，服务价格为每7620元/月，即9.144万元/年。

一个以上配置的卡成本多少呢？笔者查阅发现，Intel Platinum 8163处理器的价格为1.5万元/个，NVIDIA V100的价格为7.88万元/个。所以1.5W*8+7.88*1=19.88万元，再加上服务器（包括主板等硬件）0.5万元左右，成本共计20.38万元。

对比发现，选择阿里云包月服务所需要的钱大约两年就可以买一张卡，但一张卡的寿命远大于两年，一般至少5-10年。显然，自己组装卡是更省钱的。

一位MISSION.ORG的作者Jeff Chen也对比过自建GPU计算机和租赁AWS云服务，竟然便宜10倍！

他组装一台GPU计算机，花了3千美元，其配置包括一个1080Ti GPU（你也可以用新的2080Ti来学习机器，只要再多花500美元），一个12核CPU，64GB RAM和1TB M.2 SSD。再加三个GPU，总共四个GPU。

我们非常保守地假设，因为GPU迭代非常快，一块用�