机器学习领域技术⼤图:硬件算⼒
简介: 硬件算⼒可以说在⼈⼯智能三要素中处于发动机的⾓⾊,特别是深度学习在最近 10 年之所以获得突飞猛进的发展,很⼤程度得益简介:
于硬件算⼒在摩尔定律的驱动下获得持续的增长,如 GPU 在最近 10 年的理论算⼒获得了近⼏⼗倍的性能提升。所以,硬件算⼒也是阿⾥在⼈⼯智能技术领域的重中之重,并进⾏了重点布局和持续的技术研发投⼊,我们的技术核⼼战略是“通过建设核⾼基领域的研发能⼒,提供极致性价⽐的算⼒供给,奠定阿⾥云在 IaaS/PaaS 层具备产品易⽤性、多样性和差异化服务的能⼒”。
AI 集旨在获得更⾼的 AI 集成算⼒,扮演着“承上启下“的⾓⾊,“承上”是指向 AI 应⽤提供的有效集成算⼒,⾼集成算⼒是⽀撑 AI ⼤模型和海量数据量的使能能⼒。⽽“启下”是指通过集的计算、⽹络、存储平衡设计来充分发挥 AI 计算芯⽚能⼒,例如访存或⽹络瓶颈都会导致较低的 AI 芯⽚效率。AI 集设计的关键在于:
1)单机:计算优化,软硬件协同优化发挥 AI 加速器有效算⼒。
2)多机:通信优化,最⼩化多机数据交换引⼊的计算效率损耗。我们将从单机加速和集加速(多机)两个⽅⾯介绍相关技术和系统。
⾸先,我们将从计算和互联两个技术点对阿⾥现有的技术栈进⾏全⾯的阐述。
计算技术
神龙服务器和神龙虚拟化技术
在阿⾥云神龙硬件平台下,虚拟化架构也做了相应的升级,使计算虚拟化部分的架构更加清晰简洁,让虚拟机能提供接近物理机的性能。如图所⽰,神龙服务器架构的主要特点是:I/O 链路从传统的软件实现转变为硬件和直通设备来实现,存储虚拟化、⽹络虚拟化都在 MOC 卡上来实现;同时将管控系统、监控程序等都下沉到 MOC 卡上。在提供计算服务的物理机上,只运⾏阿⾥云⾃⼰裁剪的 Linux 操作系统和轻量化的虚拟机监控器。总的来说,神龙硬件平台的底座,加上轻量化的宿主机 OS,再加上轻量化的虚拟机监控器,就组成了神龙架构下的轻薄且⾼效的新⼀代虚拟化平台。
G PU
CPU 执⾏ AI 计算往往并不能达到最优的性价⽐,因此,具有海量并⾏计算能⼒、能够加速 AI 计算的 AI 芯⽚应运⽽⽣。当前最具代表的是 GPU、FPGA 和 AI ASIC 芯⽚。GPU 仍然是当前最成熟也是最⼴泛使⽤的加速器,阿⾥巴巴上层框架针对 GPU 做了⼤量的编译优化⼯作。GPU 在阿⾥巴巴得到了⼴泛的部署,也是云上 AI 算⼒售卖的主⼒,我们已经能做到基于 GPU 的云产品与最新⼀代 GPU 同步发布。在云上 GPU 的安全性,可运维性,⽤户体验上我们都⾛在业界的前列。在于通⽤计算可运维性在 GPU 虚拟化场景下的热升级能⼒,居于业界第⼀;是业界⾸个发布基于 SRIOV 的 GPU 热迁移技术预
研的云⼚商。在业界⾸个实现基于 GRID 的 vGPU 技术在云上输出,引导了 vGPU 云化的技术趋势,并且为 5G 时代的云游戏铺垫了 GPU 计算基础设施。
学习编程的单机游戏GPU 的训练芯⽚⼀直引领着 GPU 技术发展的趋势,除了基础 FP32 算⼒的⾼速增长之外,通过精度的变化⼤幅度提⾼算⼒,⽐如Tensorcore 是另外⼀个算⼒提升趋势;另外,由于多卡,多机的通信的需求,GPU 的通信经历了 PCIE P2P 技术,基于 NVLink 的⾼速通信技术,以及通过 RDMA ⽹络的 GPUDirect RDMA 技术。⽽在阿⾥云上,由于多租户之间需要进⾏算⼒共享,在不同的通信模式下,如何进⾏算⼒分割和通信的隔离,是⼀个阿⾥云⼀直研究的技术,包括最新的基于 NVSwitch 的 NVLink 全连接场景下的可编程拓扑分割技术等。
F P
G A
FPGA 器件⾃诞⽣之初,就以⾼度灵活的可编程性提供类 ASIC 的性能和能效⽐⽽⼴泛应⽤于有线和⽆线通信、航空航天、医疗电⼦和汽车电⼦等领域。但是,相⽐ CPU 和 GPU,FPGA 的开发周期较长(尽管只有 ASIC 开发周期的⼀半乃⾄三分之⼀)、开发和使⽤门槛较⾼,使得 FPGA 的开发⼈员远远少于 CPU 和 GPU 的开发⼈员,同时应⽤范围和知名度也受到了很⼤的限制。在 FPGA 上,我们具备了有更⾼的定制和⾃研能⼒,阿⾥云与 AIS 联合研发的业界第⼀款单卡双芯⽚的 Xilinx FPGA 板卡,在
板卡和 HDK 层⾯实现了技术⾃主创新的能⼒。
舜天平台:F PG A 即服务 (F aaS)
云上的 FPGA 实例做了丰富的功能输出,阿⾥云 FaaS(FPGA as a Service)舜天平台在云端提供统⼀硬件平台与中间件,可⼤⼤降低加速器的开发与部署成本。第三⽅ ISV 加速器 IP 可以迅速形成服务提
供给⽤户,消除加速技术与最终⽤户的硬件壁垒。⽤户则能够在⽆需了解底层硬件的情况下,直接按需使⽤加速服务。为了给加速器提供⽅和使⽤⽅提供更加⾼效、统⼀的开发及部署平台,FaaS 舜天平台提供两⼤开发套件:HDK 和 SDK。FaaS 的逻辑架构图如下图所⽰:
FaaS FPGA 逻辑架构图
阿⾥云 FaaS 舜天平台⽀持最全⾯的 DMA 技术,包括:DMA、XDMA 和 QDMA;同⼀架构⽀持 RTL 和 HLS 开发、验证与测试;全球唯⼀的同⼀软件架构同时⽀持两⼤ FPGA ⼚商 Xilinx 和 Intel 的云⼚商。全⾯、过硬、兼容性好,并且能够利⽤ PR 技术进⾏动态热升级的Shell技术使得 FaaS 舜天平台成为阿⾥集团 FPGA 异构加速业务的基础设施,完全适配了集团的所有已经引⼊的 FPGA 器件,已经成功服务⼿淘、优酷、蚂蚁和云安全⼏⼤业务板块。
阿⾥云 FaaS 平台架构图
A liD NN
与 GPU 环境下,单向的软件适配硬件不同,FPGA 和阿⾥⾃研 NPU 给了我们定义硬件的机会,可以根据业务特征进⾏深度的软硬件优化。AliDNN 是⼀款基于 FPGA 的指令集、加速器、SDK 和编译器全栈
⾃研的深度学习加速引擎。指令集加编译器设计为 AliDNN 提供了充分的灵活性。深度学习框架 (TensorFlow,Caffe 等)可以直接调⽤ AliDNN 引擎,编译器(震旦)将深度学习模型编译成加速器指令进⾏计算。算法, runtime,编译器和加速器的全栈软硬件协调优化,使得 AliDNN 拥有极致的效率和性能。AliDNN 提供了⾼吞吐、低延迟的深度学习推理服务。
N PU
AliNPU(含光 800)更是分析阿⾥集团内部的⼈⼯智能应⽤场景需求,确定了以 CNN 模型为主做了深度的优化,同时⽀持⼀些通⽤模型,⽐如 RNN 类模型等。这是针对特定深度学习算法领域做特别的优
化,把相关应⽤的性价⽐提⾼到极致,正式如此,含光 800 性价⽐远超竞品,成为全球最强 AI 推理芯⽚。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。