作为人工智能软件计算领域的顶级供应商,NVIDIA这一位于硅谷的芯片制造商已与四家台湾电子制造巨头公司进行合作。这四家公司将设计和制造为大型云供应商(如微软、谷歌和亚马逊)数据中心提供的最新AI(人工智能)服务器。
富士康(Foxconn)、英业达(Inventec)、广达(Quanta)和纬创(Wistron)这四家公司将构建由NVIDIA下一代GPU(代号为Volta)支持的硬件,采用该芯片制造商自己的HGX超级计算机设计的参考架构,而该超级计算机是该公司与微软一起为AI软件工作负载所研发的。
NVIDIA公司的首席执行官黄仁勋于本月初在硅谷举行的公司年度大型会议上宣布推出Volta产品阵容,其中包括Tesla V100数据中心GPU,并表示该芯片将于今年晚些时候面世。
NVIDIA公司加速计算产品管理部门的高级总监Keith Morris在接受Data Center Knowledge采访时表示:“我们正与各大顶级云供应商一起为过渡到Volta而努力。”此外,他希望这些公司能从更新他们现在的Tesla P100 GPU开始升级整个平台。
云服务战争的新前沿
由于云服务是各云巨头公司在云战争中能争夺到更多市场份额的最新前沿,所以它们需为机器学习(目前发展最快且使用和研究最广泛的AI类型)提供硬件。 GPU支持的服务器是用于这些工作负载的最常见的硬件类型,但它们非常昂贵,且难以在数据中心中支持这些服务器。
GPU非常耗电,且用于一系列机器学习工作负载(称之为“培训”)的服务器可以将多达8个这类的GPU打包在单个主板上。这就造成了数据中心部署的功率变得极其密集——每个机架支持30千瓦的功率也都是很常见的。然而,世界上大部分的数据中心内的每一机架都只能支持3千瓦到6千瓦的功率。
对于在生产中进行AI研究或运行AI软件的企业来说,这就是为什么从云供应商那里租用GPU服务器很有吸引力的原因。这样一来,他们就可以只为自己使用的服务买单,而无需提前为自行建立这类基础架构而花费大量资金了。另外,在最新的硬件一经上市后,他们也可以立马使用它们。
对机器学习的使用率正日益上升
MIT Technology Review和Google Cloud近期开展的一项调查发现,60%的受访者已经实施了机器学习策略,并致力于不断对机器学习进行投资。此外,18%的受访者表示他们计划在未来12至24个月内实施机器学习策略,而仅仅5%的受访者表示,他们对机器学习并不感兴趣,且在未来也不打算涉及该领域。
仅限GPU的硬件
NVIDIA公司与这四家制造商的合作重点在于为GPU服务器设计单一的特殊规格:仅具有GPU的机器,而不是混合CPU和GPU的服务器。Morris表示,云服务公司将这些服务器作为其数据中心中CPU支持的常规机器的扩展插件。
NVIDIA估计数据中心营收会出现大幅增长
根据NVIDIA公司2017年度第一季度的盈利报告,该公司预计其数据中心产品产生的营收将在今年第一季度和最后一个季度期间翻一番,从2017财年第一季度的1.43亿美元增长到第四季度的2.96亿美元。此外,该公司还估计,该业务板块将在次年进一步加快,预计在2018年第一季度将会实现4.09亿美元的收入。
NVIDIA仍然通过出售为电子游戏打造的GPU来谋取大部分的盈利,并且也不希望这一方式在不久的未来发生变化。
IDC公司预测,在2022年,各公司将为认知工作负载(AI软件的另一种描述方式)的计算基础架构支出103.6亿美元,并在未来五年内实现平均年增长率达到将近19%的目标。IDC这家市场调研公司还指出,为这些工作负载的云计算基础架构投入的资金量的增长幅度,将大于投入在内部部署基础设施上的资金的增长幅度。
来自于谷歌的竞争
本月初,谷歌宣布除了会推出云GPU服务之外,还将为TPU(张量处理单元,该公司设计的内部传统AI处理器)也提供类似的服务。该公告意味着,如果谷歌打算继续完全使用TPU来运行自己的应用程序的话,那其GPU所占的云市场份额较之前而言会有所减少。谷歌运行着全世界最大的云,并以雇有世界上最杰出的工程师而闻名。
更多信息推荐:>>>阿里巴巴将浸没式冷却技术运用到云数据中心