芯片中心

ti 芯片 RTX 4060 Ti 8G首测 DLSS3加持下的甜品光追卡

小编 2024-10-30 芯片中心 23 0

RTX 4060 Ti 8G首测 DLSS3加持下的甜品光追卡

NVIDIA GeForce RTX 4060 Ti 8G已经发布,作为用户关注比例最多的入门或者主流级别产品,RTX 4060 Ti 8G显卡国内定价3199元起,对于装机预算6000元左右的玩家来说,终于等来了相对平价的40系显卡。

根据型号定位来看,90/80级别产品为旗舰、准旗舰,对应4K分辨率;70级别对应2K分辨率;60级别则对应1080p。

RTX 4060 Ti 8G显卡虽然同样定位1080p分辨率,但多了一些前缀,就是光追以及DLSS 3。相信大家还记得RTX 2060发布时的场景,作为第一代“蹒跚学步”的光追显卡,虽然让我们见到了游戏中的另一番光影,但帧数着实难以驾驭。

而本代RTX 4060 Ti 8G则可以在开启光追和DLSS的情况下,3A游戏达到百帧水准。

与上一代产品相比,RTX 40系显卡大幅提升了Tensor算力,今天评测的RTX 4060 Ti 8G相比RTX 3060 Ti的Tensor算力,几乎达到1.7倍的提升,这在AI创作以及DLSS上的应用帮助相当大,后面我们也会对目前大火的Stable Diffusion AI绘画进行测试。

在RTX 40系中,超大的L2缓存也帮助提高性能,降低延迟,能耗比显著提升。这也是为什么此次RTX 40系显卡即使是RTX 4070这样的中端产品,也能将游戏功耗控制在200W以内的主要原因。

另外本次MSRP版RTX 4060 Ti 8G在5月23日晚21:00解禁,而各OC版显卡则在5月24日晚21:00解禁,也请大家留意后续的评测。

1 NVIDIA GeForce RTX 4060 Ti 8G FE概览

首先还是来看下外观,本次RTX 40系显卡的外包装全部采用了黑色掀盖的礼盒式包装,外包装依旧采用了哑光黑色硬纸盒。不过尽管体积和包装相同,但RTX 4060 Ti 8G拿到手后明显感觉轻了不少。

打开后显卡周围的装饰纹路自带“震惊”效果,卡身半镶嵌在包装盒内,更利于收藏和展示。

本次RTX 4060 Ti 8G包装内附赠的是一根16pin转单8pin的转接线,整卡功耗160W,推荐电源550W。不过这样一根转接线实在有点浪费,完全没必要。

好在目前大部分AIC产品都已使用传统的单8pin供电,更方便用户升级。

NVIDIA GeForce RTX 4060 Ti 8G FE显卡的整体尺寸约为240×97×40mm(不含挡板),占用2槽空间,重量约为1kg。

经过我们测试,这张显卡与不久前发布的RTX 4070整体的尺寸及重量都相同。相比来说,RTX 4060 Ti 8G在外观上最大的区别,就是原本香槟金的金属框架变成了纯银色。

这张RTX 4060 Ti 8G整体设计依旧沿用了RTX 30系显卡的外观,可以看到风扇尺寸相比RTX 30系增大,基本已经达到了显卡整体框架的直径,而在散热风扇增大的基础上,最大气流动态增加20%,同噪音等级的气流动态增加15%。

视频输出接口上,依旧采用了HDMI 2.1 + DP 1.4a*3的四接口设计。

另外由于公版采用的双轴流散热系统,所以在视频输出接口部位能够看到大量的散热鳍片,这一点与上一代相同。

本次RTX 4060 Ti 8G公版的整卡功耗为160W,采用单16pin的辅助供电。相比此前最夸张的8pin*4转接16pin来说,这次只有单8pin。

需要注意的是,目前适用于RTX 30系列的12pin接口和电源转接器与RTX 40系列显卡不兼容。

2 NVIDIA GeForce RTX 4060 Ti 8G架构浅析

本次发布的GeForce RTX 40系显卡由全新的NVIDIA Ada Lovelace架构打造,采用TSMC 4N NVIDIA定制工艺,旗舰核心AD102达到了恐怖的760亿 个晶体管,而在RTX 30系显卡中为280亿个。

与上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上 的性能提升,最高可达到90-TFLOPS 的着色器数据吞吐量。

本次发布的RTX 4060 Ti 8G共有4352个CUDA核心,提供了22-TFLOPS 算力;34个第三代Ada RT Core拥有51 RT-TFLOPS ;136个第四代Tensor Core可提供353 Tensor-TFLOPS

另外在本次的规格说明上,NVIDIA官方也特别表明了L2 Cache容量以及最终的等效带宽,这是RTX 40在架构中变化比较大的地方,同时也是玩家对位宽减小有争议的“罪魁祸首”。

我们以两张图来简单说明L2缓存的作用。

如果把GPU内核比作网店店主,那么L1缓存就是在日常工作的屋子中堆放的可发货产品,但由于所有工作都要在这间屋子进行,堆放产品的空间有限;所以大部分产品就需要到L2缓存中,它就好比在工作室隔壁的仓库,虽然需要走出去,但仍然是很近的路程。

如果这个仓库还是放不下,那么只能到更远的显存中去调取产品。当然如果有爆显存的情况,那么这位“店主”可能还要打车去更远的系统内存区调取数据。

这中间的路程和耗费时间就好比GPU额外的工作量,如果绝大部分数据只存放在L2缓存就可以拿到,那么将极大节省功耗。并且由于不再需要频繁调取显存中的数据,所以显存位宽适当降低,对于运行效率也是没有影响的。

在真正的GPU中,内核是所有计算发生的地方,而这就是L1数据缓存的作用所在。每个SM都有一个超低延迟的L1数据缓存,紧挨其处理内核,使L1成为GPU寻找信息的首选。

然而,由于L1缓存需要离内核非常近,不可能非常大。

如果在L1缓存中找不到内核计算所需的数据,GPU将在L2数据缓存中寻找。这个显存系统位于GPU芯片上,并通过一个非常高速的横梁系统连接到所有的GPC(图形处理集群),每个GPC包括多个SM。如果在L2缓存中找到了信息,那么GPU就挑出这些数据并将其放入内核。

如果在L2缓存中找不到信息(被称为缓存缺失),那么GPU将通过显存接口在VRAM中寻找。这在整个GPU存储子系统中产生了很多额外的工作量,并降低了性能和功耗效率。

其实如果只对比传统的光栅性能,RTX 4060 Ti 8G的进步并没有很大,但在AI逐渐发展的今天,需要大量逻辑推理运算,所以可以看到相比30系的Tensor算力,几乎达到1.7倍的提升。

完整的AD102核心

完整的AD106核心

RTX 4060 Ti 8G使用的AD106核心

本次RTX 4060 Ti 8G使用了AD106芯片,采用了3组GPC,其中1组少了1组TPC,并且NVENC单元变为2个。

这张RTX 4060 Ti 8G的L2缓存为32MB,而上一代RTX 3060 Ti为4MB,达到了8倍的差距。增加L2缓存的大小可以提高性能,降低延迟,并提高续航时长,数据访问在GPU上即可完成(否则GPU就要频繁从显存读取数据,过分依赖显存带宽)。所以,这也是为什么在RTX 40系显卡中,位宽带宽普遍偏小的原因。

由于整体架构分析篇幅较长,关于NVIDIA Ada架构的其他新特性就不在这里介绍了,将在文章末尾以附录的形式展开说明,有兴趣的用户可翻至最后。

3 测试平台简介

首先介绍一下测试平台,为了保障RTX 4060 Ti 8G的性能发挥,我们的平台也进行了全面更新。

目前GPU-Z版本尚未更新,部分信息无法识别,简单参考即可。

RTX 4060 Ti 8G采用AD106核心,拥有4352个CUDA,Boost频率为2535MHz,RTX 3060 Ti则为1665MHz,提升非常大。

采用8GB GDDR6显存,位宽为128bit,显存带宽288 GB/s(最终等效带宽554 GB/s),光栅单元和纹理单元为48和136。

4 理论性能测试

下面先进行的是用来衡量显卡DX11理论性能的3DMARKFS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能,取显卡分数实际测试结果如下:

在针对显卡DX11性能的3DMARKFS套装测试中,RTX 4060 Ti 8G主要对比上一代RTX 3060 Ti,其中FS提升了18% ;FSE提升了16% ;FSU提升了3% ,综合来看相比RTX 3070 Ti的性能提升约为12%

而对比刚刚发布的RTX 4070,综合成绩相差24% 左右。

而在针对DX12环境下的Time Spy和Time Spy Extreme测试中,RTX 4060 Ti 8G相较RTX 3060 Ti的提升分别为:TS提升14% ;TSE提升8% ,综合约为11%。

PortRoyal是3DMARK中专门针对光追性能的测试项,RTX 4060 Ti 8G相较RTX 3060 Ti的提升约为17%

综合来看,RTX 4060 Ti 8G的传统理论性能相较RTX 3060 Ti的提升约为13%

Speed Way测试是3DMARK最新更新的用于测试DirectX12 Ultimate 性能的显卡基准测试。要运行此测试,显卡必须支持 DirectX 12 Ultimate 并包含 6GB 及以上显存。

这项测试结合了实时光线追踪和传统渲染技术来测量显卡性能。场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果。并且有意思的是,Speed Way测试支持自由探索场景,可查看光照及摄像机设置的改变如何影响视觉效果。

对比RTX 3060 Ti显卡,从1080p分辨率到4K提升依次为:14%/12%/8%

另外我们使用3DMARK刚刚更新的DLSS 3进行了相关性能测试。不过由于RTX 3060 Ti无法开启,这里使用DLSS2进行对比测试。

在2K分辨率下DLSS开关相比RTX 3060 Ti的提升为23%/16% ;4K分辨率由于关闭情况下显卡几乎无法正常运行,仅看开启状态,提升约为51%

5 常规游戏 性能测试

由于本次RTX 40系加入了DLSS 3新技术,所以后面会进行单独测试,这里依然选择主流的几款3A大作进行游戏性能对比。

在《极限竞速:地平线5》中,加入了DLSS 3,我们在后面会进行相关测试,这里仅看常规对比。

性能方面,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分别为:1080p提升12%;2K提升8%;4K提升8%,综合提升9%

由于RTX 4060 Ti 8G这张显卡本身定位1080p分辨率,在部分2K游戏中会爆显存,所以在越高的分辨率下其实对比RTX 3060 Ti的优势不大。

在《刺客信条:英灵殿》中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分别为:1080p提升12%;2K提升7%;4K提升2%,综合提升7%

在《无主之地3》中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分别为:1080p提升13%;2K提升11%;4K提升5%,综合提升10%

《光明记忆:无限》的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多,测试条件为“RTX最高/DLSS质量”。所以测试帧数相对较低,但实际游戏配置相当亲民。

性能方面,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分别为:1080p提升25%;2K提升23%;4K提升5%,综合提升18%

在另外一款国产游戏《边境》的跑分软件中,情况基本与《光明记忆:无限》相同,测试条件均在“RTX最高/DLSS质量”下进行。

在《边境》中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分别为:1080p提升34%;2K提升23%;4K提升17%,综合提升25%

在《赛博朋克2077》中,游戏新增了光追过载画质,我们分别进行了测试。

在超级画质中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分别为,1080p提升13%;2K提升4%;4K提升6%,综合提升8%

在光追超级画质中,提升分别为,1080p提升18%;2K提升16%;4K提升15%,综合提升16%

在光追过载画质中,由于对性能需求实在变态,所以仅测试1080p及2K分辨率,提升分别为,1080p提升26% ;2K提升41%

这里分别为大家展示一下三种不同画质,从上至下依次为超级画质/光追超级/光追过载。可以看到光追过载相比光追超级更贴近于真实效果。它模拟了真实的光线路径,其实相比之前的光线追踪模拟了更多光线在不同表面的反射,完整的计算出了场景的真实光照,避免了上一代光追中出现“死黑”的情况。

这也是NVIDIA致力于打造的下一代光追场景,但是截止目前它对硬件计算的需求太过庞大,即便是旗舰显卡,也无法在4K分辨率下流畅运行。

6 DLSS 3性能测试

截止目前,已有超过300款游戏和应用支持DLSS,其中超过30款游戏已经支持最新的DLSS 3。

包括《逆水寒》、《微软模拟飞行》、《毁灭全人类2:重新探测》、《瘟疫传说:安魂曲》、《光明记忆:无限》、《暗影火炬城》、《F1 22》、《生死轮回》、《漫威蜘蛛侠:重制版》、《超级人类》、《极限竞速:地平线5》、《赛博朋克2077》、《红霞岛》、《暗黑破坏神4》、《侏罗纪世界:进化2》等等。

下面就让我们来实际测试,拥有全新的DLSS 3的游戏,能达到何种帧率。

本次DLSS 3的测试图表比较繁琐,并且增加了1% Low FPS和延迟的测试,普通的FPS好理解,那么这个1% Low FPS是什么意思。

首先,游戏benchmark通常测试的FPS即为,一段时间内的游戏平均帧。而1% Low FPS则是将一段时间内的帧数从大到小排列,取最小的1%出来,再对这1%的数求平均值。

其实简单来说,这两个数值都不能代表我们在游玩时,具体哪一刻的感受,但FPS更注重整体,而1% Low FPS则是从最差的里面求平均,更谨慎一些。

看懂了1% Low FPS,我们再来看这张图表,在坐标轴左侧的为延迟(越低越好) ,坐标轴右侧的均为帧数(越高越好) ,并且由于牵扯到正负坐标,所以两侧的值有可能会不同。

在《侏罗纪世界:进化2》中,DLSS 3的表现非常亮眼,由于此类模拟经营游戏的特点就是同屏单位多,更加占用CPU资源,而DLSS 3能够进行帧生成,来突破CPU瓶颈限制。

不过帧生成并不是毫无弊端,这也是为什么此次测试加入了延迟。并且在开启DLSS 3后,NVIDIA Reflex是捆绑开启的。但相对于绝大部分的非竞技游戏来说,32毫秒的延迟在实际体验中的感受并不强。

在《赛博朋克2077》中的数据反映比较真实,可以看到在DLSS关/光追超级的情况下,RTX 4060 Ti 8G显卡只有45帧,并且延迟达到了42.5毫秒。

而在开启DLSS 3后,帧数为121,提升了169%。虽然相比DLSS 2的延迟高了13毫秒左右,但依然维持在较低的水平。

在《巫师3》光线追踪的测试中,由于没有benchmark,我们选择画面元素较多的固定场景截取帧数,故1% Low帧数较高。RTX 4060 Ti 8G即便在DLSS 2开启的情况下也仅能勉强维持流畅帧数,但DLSS 3能够提供百帧的流畅体验。

《极限竞速:地平线5》是最新加入DLSS 3的游戏,可以看到,即便在开启DLSS 2的情况下,帧数受到CPU瓶颈限制,几乎相同。而在开启DLSS 3后,一下跃至144帧,提升18%。

《暗影火炬城》在开启光追后对于性能要求明显提高。其中DLSS 3相比DLSS关的帧数提升了49%,DLSS 2的提升则达到了35%。

不过此次《暗影火炬城》,相比刚刚发布时,1% Low帧数有明显下降,在实际游玩中也能明显感受到异于常理的突然卡顿……大概是游戏随着版本更新,优化还没有跟上。

在UE5提供的测试游戏中,方便的给出了DLSS的快捷测试,这里分为DLSS关(超分辨率关+帧生成关+Reflex关);DLSS 2(超分辨率性能+帧生成关+Reflex开);DLSS 3(超分辨率性能+帧生成开+Reflex开)三档测试。

另外,由于Lyra帧数均为静态所得,1% Low的分数相比其他游戏更高一些。

7 Stable Diffusion AI绘画测试

除了游戏之外,AI也是目前大火的领域,尤其以Stable Diffusion为最,现在很多AI生成的图片完全能够以假乱真,下面我们也来测试一下RTX 4060 Ti 8G在这方面的表现。

Stable Diffusion可以说几乎没有门槛,但本地部署的繁琐程度劝退了很多用户。上图为操作界面用户可根据自己想要生成的图片细节丰富关键词。

按照NVIDIA提供的关键词,我们生成了10批,共20张图片。并对比了刚刚发布的RTX 4070和上一代RTX 3060 Ti显卡。

RTX 4070运算时间 2m24.79s 约合 7.2秒一张图

RTX 4060 Ti 8G运算时间3m18.26s 约合 9.9秒一张图

RTX 3060 Ti运算时间3m40.86s 约合 11秒一张图

Stable Diffusion对于显卡的要求比较高,这就需要显卡拥有较强的Tensor算力。

另外它对于显存的要求非常高,此次RTX 4060 Ti 8G显存使用率已达到97%,如果有条件的话尽量选择大容量显存的显卡。

我们对比了RTX 4060 Ti 8G和RTX 3060 Ti在相同设置下的运算时间,两款显卡在生成20张图片的时间差距为22秒 ,差距还是比较大的。

另外我们也测试了使用CPU,在相同设置下生成图片,但如图片所示,保守估计需要3小时30分左右。

8 AV1编码测试

本次AV1编码测试选择了剪映专业版,它可以输出H.264/HEVC/AV1三种编码格式的视频。

剪映专业版目前自带AV1编码输出,在实际测试中,我们导出一段1分钟左右的视频。可以看到两个文件容量相差103MB。

由于AV1编码特性,生成文件的比特率更低,但视频清晰度则完全相同。所以如果生成同比特率,同容量的文件,AV1将会更清晰。

我们通过NVIDIA ICAT来进行两段视频的画面对比,图中左侧为H.264编码,右侧为AV1编码。通过200%的细节放大,几乎看不出任何区别。

9 Blender渲染测试

Blender是一款专业的三维渲染软件,目前推出了固定的benchmark跑分软件,省去了安装软件下载素材的麻烦,最新版本为3.5。

这款跑分软件只需下载好启动程序,软件会自动渲染测试monster/junkshop/classroom共三个场景。

上图为本次发布的RTX 4060 Ti 8G显卡得分,分别为2254/1081/1147分(四舍五入取整数位),平均1494分 ;下图为RTX 3060 Ti显卡得分,分别为1531/947/810分,平均1096分

得益于RTX 40系更强的Tensor算力,不难发现在三维渲染方面提升也非常明显,达到了36% ,这对于以帧为渲染单位的动画来说,能够大幅度节省时间。

10 RTX VSR(RTX Video Super Resolution)测试

目前RTX VSR(RTX Video Super Resolution)已经在部分浏览器中进行测试,首先玩家需要更新到NVIDIA最新驱动,在NVIDIA控制面板中的【调整视频图像设置】可以看到最新的RTX 视频增强超分辨率。

RTX VSR是 AI 图像处理的突破,它超越了传统的边缘检测和特征锐化技术,极大地提升直播视频内容的质量。

开启RTX VSR不仅需要最新版驱动,还需要使用RTX 40或30系列GPU,并且几乎适用于Google Chrome和Microsoft Edge浏览器中的所有视频内容(浏览器也需要更新到最新版本)。

开启后,目前已知的打开YouTube或者B站,都可以享受到RTX VSR效果的加成。

如果不确定,在全屏播放视频时,可以打开任务管理器,看到GPU负载增加,即为开启成功。

(点击放大查看原图)

我们打开YouTube随意观看视频,在打开RTX VSR后,可以清晰明显的看到水下珊瑚的质量明显提高,边缘更为清晰,并且极大减少了失真现象。

11 温度及功耗测试

功耗测试中,我们选择FurMark软件进行拷机测试,并采用GPU-Z检测温度,功耗仅计算显卡自身。

可以看到RTX 4060 Ti 8G这张显卡但通过20分钟左右的拷机测试,温度一直控制在65℃左右,热点温度在77℃左右。

游戏动态功耗测试

值得一提的是,本次我们在拷机测试中最大板载功耗为160W左右,TDP达到了100%。但在实际游戏测试中,大部分3A游戏仅需要140W左右功耗。

所以在实际的使用过程中,由于不同游戏负载不同,GPU的实际功耗是动态变化的,类似于 FPS 随时间的变化, RTX 40系列很难触及功耗墙。

RTX 4060 Ti 8G 3A游戏平均功耗

RTX 3060 Ti 3A游戏平均功耗

在实际的游戏功耗测试中,我们选择《赛博朋克2077》自带benchmark,画面设置为光追超级、2K分辨率,来拉满两张显卡的性能极限,检测我们实际应用场景的功耗。

可以看到两款显卡虽然均为60级别,但刚刚发布的RTX 4060 Ti 8G平均功耗为136W ,而RTX 3060 Ti则是219W低了83W ,这的确是一个惊人的成绩。

12 一张真正的入门光追显卡

还记得在RTX 2060显卡发布时,虽然拥有光追单元,也能玩光追游戏,但帧数实在惨不忍睹。所以玩家都戏称,2060的光追就是让你看看,没什么实际作用。

经过两代产品迭代,这张RTX 4060 Ti 8G在光追游戏中的表现完全可以用亮眼来形容,当然受限于规格限制,仅仅是在1080p分辨率下。

通过游戏的对比不难发现,一些传统3A游戏,如《无主之地3》,《刺客信条:英灵殿》这张RTX 4060 Ti 8G提升不算大,甚至在传统的理论性能测试中,它的成绩都不能用升级迭代来形容。

但是像《光明记忆无限》、《边境》这样的纯粹光追和DLSS测试中,1080p分辨率下的平均提升在25-35%之间,而这才是RTX 4060 Ti 8G真正的用途。

就像NVIDIA家的产品,历代60级都是定位1080p游戏,即便在现在GTX 1060也能流畅玩大部分。

诚然,如果只是玩一些独立游戏,或是老的3A游戏,你手中又是RTX 3060 Ti显卡,那么确实没有升级的必要。

其实上一代RTX 3060 Ti在性能定位上,也是可以流畅运行一些2K分辨率下的3A游戏,但彼时的重点仍然不在光追和DLSS上。如果拿RTX 4060 Ti 8G去运行那些游戏,同样要更强一些。

虽然RTX 4060 Ti有很多好的地方,但它确实也有一些槽点,这张显卡稳稳地卡在1080p光追游戏上,分毫不让。玩家想“既要又要”,那不可能。而且这张显卡与RTX 4070的差距确实也比较大,不知道后续NVIDIA还有没有填补这个空缺的打算。

功耗方面,RTX 4060 Ti 8G继承了RTX 40系显卡优良传统,3A游戏平均140W左右,建议电源550W起步,让我们又回到了四五年前的标准,毕竟RTX 30系整体的功耗确实有点吓人。

这张RTX 4060 Ti 8G定价3199元,对于预算5000-6000元攒机的玩家,它是一张很好地入门级光追显卡,更出色的能耗比加上更出色的光追/AI性能,都是非常诱人的。

(8184081)

TI 第二代雷达芯片深度剖析

车载雷达是高级辅助驾驶(ADAS), 无人驾驶核心传感器之一,而车载雷达芯片是车载雷达的核心,如今高度集成(MMIC + DSP/MCU)的车规级芯片为雷达小型化,高可靠性与稳定性,低成本提供关键途径,其重要性不言而喻。

近期,TI公司正式上线下一代车规级高性能车载雷达芯片,AWR2944 ,同时发布与之配套的SDK,mmwave_mcuplus_sdk_04_02_00_01,参考设计工具箱toolbox, mmwave_automotive_toolbox_3_5_0,以及demo参考板 AWR2944 EVM,那么这次发布带来哪些调整与升级,代表TI公司哪些雷达芯片产品设计思路,可能会对车载雷达行业产生哪些影响,我们来个deep dive。

AWR2944 TI定义为第二代车规级高性能车载雷达芯片,目前处于Preview阶段。也就是可以提供芯片样品或者可供评估的demo板,未正式规模量产。

▲ AWR2944

先来个关键点Device Overview

AWR2944依旧是祖传45nm RFCMOS工艺,支持76-81GHz频段,最高5GHz带宽。同时芯片支持4Tx4Rx,这也是TI迄今为止单芯片收发天线数目最多的芯片;相位噪声控制较之前的AWR1xxx系列略有提升,达到 -96 dBc/Hz [76 to 77 GHz]以及-95 dBc/Hz [76 to 81 GHz](Phase Noise @ 1MHz);全新发射端移相器;DSS集成自家DSP,只不过型号由之前的C674x,调整为C66x。MSS中的处理器由ARM R4F升级为ARM R5F,硬件加速器(HWA)升级为2.0;片上RAM提升至4MB;首次集成硬件安全模块(Hardware Security Module,HSM),HSM本身主要由一个可编程的ARM Cortex M4核构成,此外,还对boot加入认证及加密机制(Secure authenticated and encrypted boot support)以及支持加密HWA,进一步加强雷达硬件安全;车载通信接口方面,2路CAN全部调整为CAN-FD,并首次支持百兆以太网(10/100 Mbps RGMII/RMII/MII Ethernet);ADC采样率37.5Msps,通道数提升至9路,UART提升至4路,新增CSI2 Rx interface用于采集数据回放;接收端TI抛弃了上一代普遍采用的I/Q正交混频结构,采用I路混频结构(如下图)

▲ Receive Subsystem (Per Channel)

硬件架构如下图,AWR2944依旧是清晰的模块设计,前面介绍的各种调整与升级基本一目了然。我也放了AWR1843 的框图,大家方便对比。

▲ Functional Block Diagram(AWR2944)

▲ Functional Block Diagram(AWR1843)

由此可见,作为第二代高性能雷达芯片,AWR2944调整升级的地方确实还蛮多。但是参数功能终究只是表面,我们还得看看这些调整升级背后的深层次逻辑。

我在“下一代角雷达-从SRR600说起”介绍过Conti下一代角雷达样态,在大FoV条件下实现远距离目标高精度感知是基本要求,这对雷达测距性能,角度FoV,分辨率及精度提出新挑战。

2944较前代又多集成一路发送通道,以实现更高角度分辨率及精度,同时也为更多复杂天线布局设计提供芯片层面支持。

通常远距离感知主要由天线设计解决,相对聚焦的波束测得更远,同时压缩了FoV,在大FoV条件下实现远距离测距是比较困难的,一种途径就是多天线同时发送,比如4路天线同时发射,叠加的宽波束能够在保证宽FoV条件下,距离测得更远。但同发的问题在于接收端对叠加的波束可靠分离较为困难。2944采用了全新的DDM-MIMO通道分离方案(下文会详述),在同发的基础上实现可靠的通道分离,基本实现大FoV条件下远距离目标高精度感知。并且这一切几乎全由硬件加速器实现(只有部分少量计算由DSP介入),因此TI 将HWA顺势升级为2.0。

同时提高RAM容量以平衡通道数提升以及算法复杂度提升带来的内存开销增大。以太网接口的加入也是应对雷达输出点云等数据量提升问题。

1代芯片中,打头阵的是1642,DSP是绝对的计算 核心,用于几乎全部的信号处理及数据处理任务。MCU基本只用于配置控制管理 等,这是TI对ARM MCU的基本定位。所以MSS及DSS的处理方式并不平衡,用TI的原话就是

In most use cases the MSS is defined as a control domain while the DSS actually executes the DPC.

*/ti/mmwave_mcuplus_sdk_04_02_00_01/mmwave_mcuplus_sdk_04_02_00_01/ti/control/dpm/docs/doxygen/html/index.html

而到了第2代,打头阵的2944中,DSP地位被相当弱化,耗时耗力的信号处理部分基本由HWA代劳,事实上,只要你愿意,整个RSP处理链路皆由HWA实现,TI也希望你多多使用HWA,也因此调低了DSP规格,C66x处理频率只有360MHz,远低于上代C67x的600MHz。并且ARM也被加强,不仅用于配置及控制,也用于上层数据处理,比如tracking,classification也可由ARM处理,进一步分担了DSP的处理任务,这是DSP规格下降的理由。

这样的变化喜忧参半,文末再叙。

虽然2944调整升级丰富,带来全新雷达体验,但由于DSP规格降低,以及接收端单路混频方案ADC数量降低等因素, 2944芯片成本不会提高很多。

软件及demo参考设计方面

TI提供了适配2944的SDK及Toolbox。

Toolbox中包含满足NCAP R79功能需求的2944参考设计,支持BSD, FCTA,LCA等。demo实现水平FoV ±80°下200m测距,角度分辨率9.5°。比较有意思的是,TI在reference design 的feature栏中加入了这么一句值得玩味的话:Builds customer confidence on mmWave device capabilities ,看来毫米波雷达还是比较卑微啊。

▲ AWR2944 EVM

EVM与DCA1000结合提供raw data采集能力,为分析原始ADC数据提供支持。

Demo板天线MIMO布局等效阵为

▲ Virtual Antenna Array

天线频段覆盖76GHz至81GHz,增益13dBi, 3dB波束宽度水平±30°,俯仰±3°。6dB波束宽度水平±45°,俯仰±5°。

▲ Azimuth Radiation Pattern

▲ Elevation Radiation Pattern

TI在SDK 3.x之后设计了全新的SW Framework,引入DPC,DPM,DPU等概念,使得整个软件架构虽复杂但逻辑较为清晰,开发者能够快速上手开发。Framework不是本文重点,不再赘述,聊聊核心升级DDM-MIMO。

我在“4D雷达之MIMO通道”分离中讨论过,FDM,TDM,CDM等MIMO通道分离技术。与TDMA不同,FDMA可以实现同发,并利用发射端天线与频率偏移位置之间的映射关系确定通道分离方案。

其中FDM可以由下图简单总结:

(A) 如果各待分离通道之间的频率偏移量是多普勒分辨率的倍数,则是DDMA;

(B) 如果各待分离通道之间的频率偏移量是dechirp后信号带宽的倍数,则是RDMA;

(C) 如果各待分离通道之间的频率偏移量是最大拍频的倍数,则是BFD;

(D) 如果各待分离通道之间的频率偏移量是chirp带宽的倍数,则是FT-FDMA。

▲ MIMO channel separation

由此可见,DDM可以认为是FDM的一种情况。

▲ range-Doppler map(DDM)

TI实现的是 The empty-band DDMA,提供RangeProc DDMA DPU,以及Doppler DDMA DPU构成DDMA核心实现模块。我简单看了下TI 目前硬件实现的DDMA Demodulation,整体完成度还是可以的。

▲ DDMA principle

从DDMA modulation可见,DDM-MIMO对移相器要求很高,TI的移相器精度也需要仔细评估。

▲ Object Detection Data Path Processing Chain

不过DDMA也不是高枕无忧的方案,DDMA潜在问题包括但不限于,

相位校准峰值混叠不均衡幅值

下图为demo实测效果,其测距性能,点云密度,FoV等方面效果还可以,比1代确实有较大提升。希望能够“Builds customer confidence on mmWave device capabilities ”。

▲ 2944demo Test

小结

我们再上升一个台阶,分析TI 2944的发布可能会对车载雷达行业产生哪些影响。

若仅从技术角度分析雷达竞争力,最重要在于天线,MMIC,算法。芯片厂商提供MMIC,雷达厂商因天线及算法上的优势逐渐建立自身壁垒,而这一状态似乎慢慢发生变化。

1、 毫米波雷达正逐渐从“信号处理环节差异性”转向“数据处理环节差异性”,也即是对点云数据处理方式的差异性。TI倡导HWA的使用,将诸多先进信号处理算法固化,用户只需按需取用,信号处理算法正在被标准化,构建雷达底层标准品。

降低DSP的处理频率,提高ARM核心主频,一方面变相引导用户强化对HWA的使用,另一方面也有利于均衡成本。TI也表示:

The Hardware Accelerator block (HWA 2.0) supplements the DSS and MSS by offloading common radar processing such as FFT, Constant False Alarm rate (CFAR), scaling, and compression. This saves MIPS on the DSS and MSS, opening up resources for custom applications and higher level algorithms.

https://www.ti.com/lit/ds/symlink/awr2944.pdf?ts=1637431154585

雷达厂商的战场慢慢向数据处理,包括跟踪,目标分类,场景理解,边缘AI,数据融合等环节。

2、我始终认为信号处理才是毫米波雷达最迷人的地方。 这样的举措无疑导致,雷达厂商从ADC原始数据输出到雷达点云数据输出的所有中间环节掌控将越来越弱。降低RSP层灵活性。也会进一步降低了雷达技术门槛,打破原有雷达厂商部分技术壁垒。由此可见,芯片供应商对雷达厂商的影响会越来越大,芯片厂商顶层的“平权”策略进一步降低雷达厂商之间产品差异性,势必进入低价竞争。

至于后续雷达的升级方向,我觉得信号处理部分会在芯片厂商的影响下部分淡化,由HWA依旧会加强,RSP部分最终可能就是标准品,你需要怎么样的应用,配置下寄存器就好了,竞争可能越来越集中在上层数据处理,整合全新的AI Engine也是很有可能的,某种程度上,毫米波雷达除了频段,会越来越像激光雷达。

相关问答

电脑上的IO芯片是什么?-ZOL问答

IO一般指输入输出设备,I就是input,O是output,芯片io口输入是外面信号传输到芯片、输出是芯片内部传输信号到其他器件,输入输出是相对的,比如信号从A—》B,对于A...

i是什么芯片?

"i"芯片指的是苹果公司自家设计的ARM架构处理器,常见于苹果的iPhone、iPad、Mac等产品中。它是苹果自主研发的芯片,采用先进的制程工艺,具备高效能与低功...

TI芯片为什么涨价?

主要是因为现在全球芯片短缺,物以稀为贵。TI芯片是这种逆变器的大脑中枢,可帮助把阳光转换成可用的电力,从而实现电网供电。去年9月,TI推出了一种被称为...

请问IC和IT的区别是什么?

ITinformationtechnology信息技术ICintegeratecircuit集成电路IT从字面上来解释是信息技术在英国通常是做电脑学科来说就是在学校里,电脑课的名字就...

idm属于模拟芯片吗?

属于。IDM是全球模拟芯片的主流模式,TI等龙头公司产能逐渐向12吋转移。模拟芯片需要设计与工艺深度结合,高端模拟芯片需要自主的生产工艺支持,IDM公司...

英特尔处理器M和i有什么不同,用M还是用i好??-ZOL问答

IntelCoreM处理器,功耗降低至4.5W,为低功耗的处理器系列产品。可大大延长电池续航时间,可以不用风扇强制散热。M系列低功耗处理器,低性能是不能和i系列桌...

什么是I/o芯片?

1.I/O芯片是一种输入/输出控制芯片。2.I/O芯片主要负责控制计算机与外部设备之间的数据传输和通信,包括数据的输入、输出、转换和处理等功能。I/O芯片的种类...

io芯片的作用?

负责提供串行、并行接口及软盘驱动器控制接口。I/O芯片在486以上档次的主板,板上都有I/O控制电路。芯片组(Chipset)是主板的核心组成部分,几乎决定了这块主...

唐dmi是用什么芯片?

唐DMI(DigitalMediaInterface)是一种数字音视频信号传输接口,常用于车载多媒体系统中。根据官网信息,唐DMI的芯片型号包括:TDA7388、TDA7385、TDA7850、T...

ic和tc什么区别?

ic释义:abbr.集成电路(integratedcircuit)例句:Waitaminute.IneedanICcard.等一下,我要买一张IC卡。词组:iccard...

猜你喜欢