MobileyeEyeQ6系列深度分析
虽然Mobileye在L3/L4领域被英伟达和⾼通压制,但⽬前市场主流还是L2,L3/L4的出货量⽬前还很低,Mobileye在L2的市场占有率在75%以上。2021年出货量⾼达2810万⽚,绝对的霸主地位。
L2+时代,被英特尔收购的Mobileye不再以芯⽚单打独⽃,⽽是借助英特尔的强⼤实⼒,开拓更⼴的产品线来为客户提供全套解决⽅案。英特尔在光电⼦领域耕耘多年,光收发器技术全球领先,激光雷达本质上就是个光收发器。在射频领域,英特尔也有⾜够的技术积累,WiFi6和5G领域皆有相关产品,做毫⽶波雷达芯⽚更是得⼼应⼿。同时Mobileye也推出了EyeQ6系列芯⽚。
EyeQ6H与Mobileye之前的芯⽚⽐最⼤不同是加⼊了两个GPU,⼀个是很⼩规模的ARM MALI GPU,算⼒仅为
64GFLOPS,估计是双核的MALI G78AE,运⾏频率500-600MHz之间,预计⽤于ADAS的AR图像叠加输出。另⼀个GPU不明,可能是Imagination的BXS 1024 MC-2,算⼒1000GFLOPS,主要是应对OCL,应该是OpenCL,OpenCL 是GPGPU的API,OpenCL类似于另外两个开放的⼯业标准OpenGL (跨平台图形API) 和OpenAL (跨平台⾳效API),这两个标准分别⽤于三维图形和计算机⾳频⽅⾯。OpenCL扩充了GPU图形⽣成之外的能⼒。OpenCL由⾮盈利性技术组织Khronos Group掌管。应该是做⽴体视觉中的计算量最⼤的⽴体匹配⽤的。顺便说⼀下,计算机视觉领域的关键库OpenCV是英特
尔主导并开源的,英特尔⽆处不在,早在1999年,英特尔就开始做OpenCV的前期⼯作了。
CPU⽅⾯还是MIPS的架构,还是EyeQ5的I6500-F架构,特⾊是多线程,EyeQ6H是8核32线程。ARM架构除了极罕见的A65AE外,都是单线程架构。x86架构通常都是多⼀倍的线程,⼀般是4核8线程这样,只有MIPS,从2005年引⼊多线程以来,⼀直以此为卖点。
MIPS成⽴于1984年,是最早提供RISC CPU IP的公司,主打的实时应⽤,特别是互联⽹实时应⽤,⽹络打印机、路由器、⽹关领域是MIPS的核⼼领域,注重性能⽽对功耗不太在意。但这些领域缺乏增长,股东看不到增长就要出售公司。2018年MIPS经过两度转⼿,最终落到了AI初创企业Wave Computing⼿⾥。不过好景不长,在收购第⼆年,Wave Computing就申请破产重组,最终还是活过来了,2020年11⽉,Wave将RISC-V⽀持加⼊MIPS核⼼,此举并不意味着Wave全⾯倒向RISC-V,MIPS仍然有庞⼤的⽤户基础,维持稳定的现⾦流没有问题,在2019年采⽤MIPS架构的芯⽚就有10亿⽚出货。汽车领域客户不少,包括电装、NXP、奔驰投资的Valens、Microchip。
简单说⼀下多线程,我们说的多线程⼀般是SMT,Simultaneous Multithreading,它还有⼀个名字超线程(Hyper-Threading),业内也叫线程级并⾏,线程级并⾏是⼀种显式并⾏,也就是程序员要写多线程程序。随着单核性能的不断提升,后端执⾏资源也越来越丰富,这种执⾏端⼝闲置的情况就会越来越明显,造成资源浪费。这时候,为了将这些资源物尽其⽤,同步多线程SMT就应运⽽⽣了。SMT
的思路是这样的,既然⼀个任务填不满后端的资源,那么我们就不⽌⼀个任务来填就好了,不同任务之间的相互依赖和冲突情况很低,放到⼀起来执⾏正合适去填满后端资源。
即⼀个物理核⼼虚拟出多个逻辑核⼼,⼀般是⼀个物理核⼼虚拟出两个逻辑核⼼,即英特尔和AMD的SMT2。⽽MIPS 是SMT4,在常规指令译码后多了4个线程级逻辑单元,实际物理上不存在,要靠软件来实现。上图是I6400的微架构图,I6500与之类似。
天下没有免费的午餐,SMT技术带来多线程性能提升的同时,势必也会有⼀些负⾯的影响。⾸先是上下⽂转换的开销,⼀个物理核⼼如果引⼊多个线程,那么是要协调、隔离多个线程的,任务的转换之间会产⽣额外的开销。所以最理想情况下,如果⼀个核⼼有两个线程,那么两个线程的总执⾏时间会更快,但细分到每⼀个线程的执⾏时间,会⽐分别执⾏来的慢⼀些。其次是资源冲突,最典型的冲突就是缓存的冲突,⼀个线程可以⽤100%的缓存,⽽超过⼀个线程使⽤同⼀个缓存,可⽤缓存就不是100%,会导致⼤量开销极⼤的缓存-内存换⼊换出。只要有⼀个线程是⾮常吃缓存的,那么加⼊SMT不但不会提升总的执⾏效率,反⽽会降低整体效率。SMT⾮常忌讳不同线程的资源冲突,⼀但冲突SMT就很容易引⼊反⾯效果。⽐如在很多云服务器、HPC服务器上,SMT通常是关闭的,就是因为资源冲突。再次是线程安全问题,两个线程在同⼀个核⼼内执⾏,是需要严格隔离它们的上下⽂的,线程A不能访问修改其他线程的资源。线程隔离是⼀个⾮常复杂和繁琐的过程,若隔离不彻底,会导致执⾏错误、以及隐私泄漏的问题。最后是功耗,加⼊SMT后单核的能耗⽐会有些许倒退。由于引⼊SMT
会导致核⼼设计更加复杂,静态功耗、漏电会更难控制,这对于移动设备是致命的。这也是为什么SMT在PC和服务器上⼤⾏其道这么多年,⼿机上⼏乎看不到的原因。
上图为I6500F的⼀致性管理,这是异构计算的先决条件,⼀致性特别是缓存⼀致性。
在⼀个多处理器系统中,缓存和内存池可能对同⼀份数据有多份副本,如何保证这些副本的⼀致性(Coherency)是个必须严肃对待的问题。可以纯软件来处理这个问题,利⽤Cache操作指令,但开销巨⼤⼗分复杂,⽽且操作系统的内存模型就需要全部改变,这对X86体系甚⾄绝⼤多数体系⽽⾔都是不能接受的。所以绝⼤多数计算机体系都是靠硬件来完成Cache Coherency的,硬件会⾃动保证各个副本的⼀致性,⽆需软件操⼼。常规的做法是加⼀个Snoop偷窥过滤器。在内存控制器端的CacheAgent(CA),在L3 Cache端,他们都在Ring bus上监听和发送snoop消息。这种模型叫做Bus snooping模型,与之相对的还有Directory模型。考虑到I6500是2016年的产品,可能还是Snoop偷窥过滤器。
I6500的ACE ⼀致性编织⽐较适合异构计算,就是CPU、GPU和AI混合。
I6500-F看对应ISO26262即功能安全,⾄少可以达到ASIL-C级。
⾼性能GPU⽅⾯,只有1000GFLOPS,估计Mobileye会采⽤MIPS⽼东家Imagination的产品,不需要
⽤到英特尔的GPU架构。Imagination有⼀系列针对车载领域的GPU,即IMG-B系列,这是2020年10⽉才推出的产品系列,也是Imagination放弃PowerVR的GT系列序号,改为A和B两⼤系列,A系列于2019年12⽉发布,主打⾼性能应⽤,B系列主打低功耗应⽤。IMG BXT/BXS-32-1024 MC2 GPU⽐较符合,通常车载GPU运⾏频率不⾼,⼤致在450-650MHz之间,IMG BXT/BXS-32-1024 MC2性能为2048 FP32 FLOPs/Clock,500MHz频率下,性能即1024GFLOPS。但未见Imagination公布与Mobileye的合作新闻,也有可能采⽤了英特尔⾃⼰的GPU架构,不过有点⼤材⼩⽤了。
其中BXS系列是针对车载领域设计的,能够满⾜ISO26262的要求。
Imagination声称其采⽤了⼀项Tile Region Protection即TRP的技术,⾜以应对苛刻的功能安全。
再来看ARM MALI的GPU。
ARM的GPU设计项⽬最早从上个世纪90年代末期开始,由挪威科技⼤学开始开展,随后在2001年,这个项⽬的Mali⼩组成员从研究中脱离出来,成⽴了⼀个名为Falanx Microsystems的公司。Falanx公司的⼈员刚开始瞄准的是PC图形市场,但当时已经是后3DFX时代,雄并起,包括S3、Rendition、Revolution以及Imagination等公司最后都失败了,最终Falanx⽆法筹集到⾜够的资⾦,被迫放弃了PC图形市场。
在那个“紧迫期”,由于资⾦有限和PC图形硬件极⾼的研发成本,Falanx最终决定转向移动SoC GPU设计。因为移动GPU设计更简单且较容易成功。Falanx的产品Mali GPU也迎来了第⼀个客户—美国Zoran公司,使⽤了Mali-55作为他们Approach 5C SoC芯⽚的GPU,这颗芯⽚还被⽤在LG's Viewty这样⼴受欢迎的⼿机产品中。即使如此,Falanx还不满⾜,最终在2006年迎来了他们的“⼤鱼”。鉴于SoC市场持续增长以及将带来的移动计算⼤潮,ARM公司终于决定买下Falanx,组建⾃⼰的GPU事业部,并联合ARM的CPU⼀起推动整个产业的增长。ARM作为⼀个处于上升期、资⾦充裕的公司,完全有能⼒给Falanx充⾜的资⾦和研发资源来实现梦想。
ARM第⼀代微架构Utgard(北欧神话⼈物:乌特加德)。这⼀代架构出来的⽐较早,主要是图形加速IP。可以追溯到2007年的mali-200。不过最让⼈惊讶的是mali-4xx系列,现在很多电视芯⽚都还在⽤这个IP。⽐如⼩⽶的智能电视,还有很多是mali-4xx系列的。第⼆代微架构Midgard(北欧神话⼈物:⽶德加德)。Midgard这⼀代GPU开始属于同⼀着⾊器的架构,也就是上⾯说的vertexshader和fragment shader已经统⼀在⼀起了,相当于同⼀个shader计算单元可以处理多种着⾊器。当然也开始⽀持通⽤计算。特别是对OpenCL的⽀持。第三代微架构Bifrost(北欧神话中连接天宫和⼤地的:彩虹桥)。第四代微架构Valhall(北欧神话中的⽡尔哈拉神殿,是战死的勇⼠死后进⼊奥丁神的神殿)是2019年第⼆季度推出来的。该系列是基于超标量实现的。
常见苹果、⾼通与ARM MALI GPU参数对⽐
ARM MALI G78AE GPU是ARM⾸款针对车载领域开发的GPU IP,⽬标是ASIL-D级标准。
MALI G78AE框架图如上,主要是加⼊了灵活分区功能,能够提⾼效率与安全性。
ARM MALI G78AE简介
EyeQ6L是⽬前Mobileye主⼒产品EyeQ4的替代者,也采⽤7纳⽶设计,CPU是2核8线程,OCL算⼒是720GFLOPS。相⽐EyeQ4,其⾯积⼩了45%,这就意味着硬件成本低了45%,其价格可以低于30美元,⽐初创企业的竞品成本还要低。AI算⼒有5TOPS,⽤于L2+绰绰有余。程序员接活的平台网站
Mobileye系统最⼤优点是产品成本低,开发周期很短,开发费⽤极低,绝⼤部分功能都经过验证,没有风险。⽽缺点是系统⾮常封闭,难以搞特⾊功能,迭代困难,出了问题,较难改进或提升。对于传统车⼚⽽⾔,Mobileye基本是唯⼀选择,对于总想与众不同的新兴造车⼚家来说就有点⽆法适应。然⽽新兴造车企业毕竟还是极少数。Mobileye霸主地位⾄少五年内稳如泰⼭。
更多佐思报告
报告订购及合作咨询联系⼈:
佐思 2021年研究报告撰写计划
智能⽹联汽车产业链全景图(2021年12⽉版)
主机⼚⾃动驾驶汽车视觉(上)⾼精度地图
主机⼚⾃动驾驶汽车视觉(上)⾼精度地图
商⽤车⾃动驾驶汽车视觉(下)⾼精度定位
低速⾃动驾驶汽车仿真(上)OEM信息安全ADAS与⾃动驾驶Tier1汽车仿真(下)汽车⽹关
汽车与域控制器毫⽶波雷达APA与AVP
域控制器排名分析车⽤激光雷达驾驶员监测
激光和毫⽶波雷达排名车⽤超声波雷达红外夜视
E/E架构Radar拆解车载语⾳
汽车分时租赁充电基础设施⼈机交互
共享出⾏及⾃动驾驶汽车电机控制器L4⾃动驾驶EV热管理系统混合动⼒报告L2⾃动驾驶汽车功率电⼦汽车PCB研究燃料电池
⽆线通讯模组汽车IGBT汽车OS研究汽车5G汽车线束线控底盘
合资品牌车联⽹V2X和车路协同转向系统
⾃主品牌车联⽹路侧智能感知模块化报告
⾃主品牌ADAS研究商⽤车车联⽹商⽤车ADAS 汽车多模态交互汽车智能座舱车载显⽰Tier1智能座舱(上 )座舱多屏与联屏智能后视镜Tier1智能座舱(下 )智能座舱设计汽车照明
座舱SOC汽车VCU研究汽车座椅
汽车数字钥匙TSP⼚商及产品HUD⾏业研究
汽车云服务平台OTA研究
汽车MCU研究
AUTOSAR研究智慧停车研究传感器芯⽚
软件定义汽车Waymo智能⽹联布局ADAS/AD主控芯⽚
T-Box市场研究⾃动驾驶法规ADAS数据年报
T-Box排名分析智能⽹联和⾃动驾驶基地汽车镁合⾦压铸
乘⽤车摄像头季报智能汽车个性化飞⾏汽车
专⽤车⾃动驾驶农机⾃动驾驶矿⼭⾃动驾驶
港⼝⾃动驾驶⾃动驾驶重卡
⽆⼈接驳车
仪表和中控显⽰车载DMS合资品牌ADAS
800V⾼压平台
「佐思研究⽉报」
ADAS/智能汽车⽉报 | 汽车座舱电⼦⽉报 | 汽车视觉和汽车雷达⽉报 | 电池、电机、电控⽉报 | 车载信息系统⽉报 | 乘⽤车ACC数据⽉报 | 前视数据⽉报 | HUD⽉报 | AEB⽉报 | APA数据⽉报 | LKS数据⽉报 | 前雷达数据⽉报
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论