华为史上最强芯片昇腾910面世,算力超Tesla V100一倍,AI框架MindSpore明年开源

华为表示,全新的人工智能芯片「昇腾 910」主要面向 AI 数据科学家和工程师,其算力已达到全球领先水平,远超谷歌的 TPU v3 和英伟达最新的 GPU Tesla V100。配合 MindSpore 开源框架,华为一次满足了终端、边缘计算、云全场景需求,让芯片的强大算力能够以最高效的方式被人们利用。

昇腾 910 也是华为「达芬奇架构」最大的一款芯片。去年 10 月,华为在全联接大会(HC)上宣布了达芬奇计划,其中用于人工智能训练的昇腾 910 芯片格外引人注目。它被认为是全球单芯片计算密度最大的 AI 芯片。今天,华为在深圳的发布让我们终于能够和它见面,人们可以在华为云服务中使用这些芯片了。

华为公司轮值董事长徐直军表示,「华为自 2018 年 10 月发布 AI 战略以来,稳步而有序地推进战略执行、产品研发及商用进程。昇腾 910、MindSpore 的推出,标志着华为已完成全栈全场景 AI 解决方案的构建,也标志着华为AI 战略的执行进入了新的阶段。」

华为首款 AI 训练芯片昇腾 910

面向服务器的芯片昇腾(Ascend)910 采用 7nm 制程,而设计功耗为 310W,其算力比英伟达 Tesla V100 还要高出一倍,半精度(FP16)达到了 256 TeraFLOPS(英伟达 Tesla V100 为 125),整数精度算力(INT8)则为 512TeraOPS。在这块芯片上,华为还加入了 128 通道全高清视频解码器。此外,华为表示,昇腾 910 达到规格算力所需功耗仅 310W,明显低于设计规格的 350W。

图:昇腾910与谷歌TPU、英伟达v100对比

徐直军表示:「昇腾 910 完全达到了设计规格,在同等功耗下拥有的算力资源,达到了业内最佳水平的两倍。它已经应用在实际的服务中,比如在典型的 ResNet50 网络的训练中,昇腾 910 与 MindSpore 配合,与现有主流训练单卡配合 TensorFlow 相比,显示出接近 2 倍的性能提升,每秒处理的图片数量从 965 张提升到了 1802 张。」

在发布芯片的同时,华为还推出了大规模分布式训练系统 Ascend 集群,在设计中,该集群将包括 1024 个 Asced 910 芯片,算力达到 256P,大幅超过英伟达 DGX2 和谷歌 TPU 集群。

一次开发,全面部署: MindSpore

强大的硬件也需要 AI 开发框架才能释放全部潜能,MindSpore 是华为提出的全场景 AI 框架,与 TensorFlow、PyTorch、PaddlePaddle 等框架并列。

未来的 AI 应用由任务驱动,在不同场景中机器学习模型的部署方式不同;另一方面,随着技术的快速发展,新方法引出的安全问题和算力瓶颈成为了人们面临的重要挑战。

MindSpore 是一款支持端、边、云独立的和协同的统一训练和推理框架。华为希望通过这款完整的软件堆栈,实现一次性算子开发、一致的开发和调试体验,以此帮助开发者实现一次性开发,应用在所有设备端、边缘及云端平滑迁移的能力。

「MindSpore 框架支持从大到小的所有设备,同时也支持本地的 AI 计算,从而实现隐私保护,」徐直军表示。「这种框架传递给云端的数据可以是处理后的、不带有隐私信息的梯度、模型信息,而非数据本身,以此实现在保证用户隐私数据保护的前提下跨场景协同。除了隐私保护,MindSpore 还将模型保护 Built-in 到 AI 框架中,实现模型的安全可信。」

MindSpore 原生适应所有的 AI 应用场景,并能够按需协同的基础上,通过实现 AI 算法即代码,使开发态变得更加友好,显著减少模型开发时间。以一个 NLP(自然语言处理)典型网络为例,相比其他框架,用 MindSpore 可降低核心代码量 20%,开发门槛大大降低,效率整体提升 50% 以上。

MindSpore 和昇腾处理器结合可以显著提高 AI 负载的处理效率,不过即使用户采用常规的 CPU、GPU,这一框架也能提供全面支持。

在这一框架中,算子库 CANN 面向人工智能不断出现的多样性算子,兼顾了高性能和高开发效率。TensorEngine 实现了统一的 DSL 接口、自动算子优化、自动算子生成,以及自动算子调优功能。值得一提的是,华为在 Tensor Engine 中采用了陈天奇等人提出的 TVM。华为称,CANN 可以实现 3 倍的开发效率提升。华为表示,MindSpore 同时也支持目前所有主流深度学习框架中的模型。

在框架之上,华为还为开发者提供了更为高级的 ModelArts,这是一个机器学习 PaaS,提供全流程服务、分层分级 API 及预集成解决方案。去年发布 ModelArts 后,目前的日均训练作业任务超过 4000 个,已经拥有了超过 3 万名开发者。

基于达芬奇架构的统一性,开发者在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于不同平台,大幅降低了迁移成本。

在发布会上,徐直军还宣布 MindSpore 将在 2020 年的第一季度开源,希望以此助力每一位开发者,促进 AI 产业生态发展。「华为在生态建设上有自己的优势,」徐直军表示。「我们在智能终端上的 HiAI 引擎,可以让所有开发者基于异构计算的算力实现多种智能化服务。通过最强算力和先进框架的结合,我们可以打造很多其他框架做不到的事情。」

随着昇腾处理器和 MindSpore 等产品的推出,华为的全场景 AI 战略已经向我们展现无余。

华为达芬奇计划

华为的达芬奇架构此前已经随着昇腾 310 芯片,和 7 月份刚刚推出的麒麟 810 手机处理器为我们揭开了面纱。华为希望通过这一自研架构的多种处理器,接管未来人工智能场景中的所有计算任务。

在达芬奇架构的处理器中,Da Vinci Core 只是 NPU 的一个部分,Da Vinci Core 内部还细分成很多单元,包括核心的 3D Cube、Vector 向量计算单元、Scalar 标量计算单元等,它们各自负责不同的运算任务实现并行化计算模型,共同保障 AI 计算的高效处理。

其主要结构分为三个部分:

  • 3D Cube 矩阵乘法单元。矩阵乘是 AI 计算的核心,这部分运算由 3D Cube 完成,Buffer L0A、L0B、L0C 则用于存储输入矩阵和输出矩阵数据,负责向 Cube 计算单元输送数据和存放计算结果。

  • 向量计算单元虽然 Cube 的算力很强大,但只能完成矩阵乘运算,还有很多计算类型要依靠 Vector 向量计算单元来完成。Vector 的指令相对来说非常丰富,可以覆盖各种基本的计算类型和许多定制的计算类型。

  • 标量计算单元,主要负责 AI Core 的标量运算,功能上可以看作一个小 CPU,完成整个程序的循环控制,分支判断,Cube、Vector 等指令的地址和参数计算以及基本的算术运算等。

华为称,达芬奇架构适用于从手机端到智能设备,再到服务器端的全部人工智能模型训练场景。在首款采用自研 NPU 的麒麟 810 上,华为已经展现了自己的 AI 芯片研发实力(搭载的手机是华为Nova5 系列)。今天推出的昇腾 910 芯片是目前采用达芬奇架构最大、算力最强的一款芯片。

华为一直在加强投资基础技术的研究,自 2018 年 10 月发布 AI 战略以来,一直在稳步推进战略执行、产品研发及商用进程。昇腾 910、MindSpore 的推出,标志着华为已完成全栈全场景 AI 解决方案的构建,也标志着华为AI 战略的执行进入了新的阶段。

昇腾 310 和昇腾 910 仅仅是一个开始,面向未来,华为还将推出更多的面向所有场景的产品。在 2021 年,华为还将推出下一代芯片昇腾 320,在 9 系列和 3 系列之间的昇腾 610 也将在明年推出。

最后,徐直军表示:「在今年的华为全联接大会上,我们还会发布更加震撼的 AI 产品。」此外,华为的下一代旗舰手机处理器麒麟 990 也将在 9 月 6 日与我们见面。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章