最近特斯拉FSD进入中国,虽然网络上各种媒体老师的测试我们都赢了,但Jack认为特斯拉FSD算法依然是最强,还是FSD香。此次国内特斯拉FSD的各种测试主要评价指标都是接管率,而且特斯拉的接管主要出现在对于道路地图以及中国特殊交规不熟悉的方面,但在如下方面特斯拉至少领先国内各家一代:感知控制算法与驾驶体验 - 媲美老司机的油门,刹车,方向控制。这种老司机的驾驶体验在避障绕行,选择路径时候的响应,提前,丝滑规划上发挥的淋漓尽致。全场景无感覆盖能力- 只要有GPS定位信息,他就会寻找可通行的路径抵达目的地,如果没有GPS信息也会自行寻找可行驶路径漫游自动驾驶行驶。这些背后是真正端到端人工智能大模型的优势,至于本次各家测试暴露的定位、地图适配以及交规问题都属于本土适配问题,不是技术难题。
所以,特斯拉算法依然值得学习和研究。我们之前了解特斯拉的算法主要是通过特斯拉的发布会等媒体沟通渠道获取,本文另辟蹊径通过特斯拉FSD自动驾驶算法专利,从以下几个方面去探索特斯拉人工智能算法:算法基础 - 软硬结合的闭环架构感知秘诀 - 基于VRU和非VRU的BEV和Occ规控秘诀 - 考虑延迟,实时建模希望能找到特斯拉FSD以及其人工智能算法优势点,获取一些有用信息和思路。此外最近DeepSeek不是火了么,我之前文章《什么是 DeepSeek?为什么它会颠覆人工智能领域?》也分析过,DeepSeek其实用了最厉害的一招—— Distillation也就是蒸馏的方法站着前人的肩膀上获得的了二次创新的成功,那么自动驾驶机器人等physical AI方面是不是也可以采用蒸馏的方法来蒸馏特斯拉FSD算法?
毕竟FSD也是端到端大模型,或许看完本文会有答案。算法基础 - 软硬结合的闭环架构根据特斯拉WO2024073115A1专利内容,特斯拉架构师一套组织紧密,从训练到部署,再到数据回流,迭代的闭环,这一套算法架构适用于所有Physical AI包括自动驾驶和人形机器人。
首先算法层面,特斯拉 FSD 算法其实并不是一个整体实体,我们常看到的示意图一个大模型网络,它由较小的专用子网络组成,每个子网络都专用于自动驾驶的特定方面或功能。这种模块化设计意味着特斯拉可以通过整体训练来优化整个算法,或者单独训练来改进其中一个。当一个部分得到改进时,人工智能的端到端特性也意味着其他部分将学会适应改进,从而表现得更好。它还允许在部署和初始平台训练期间实现更高效的处理和适应性。
这些子网络可能负责以下任务:识别和解释交通信号检测和跟踪移动物体,包括车辆、行人、自行车等保持车道位置并行驶道路生成周围环境的 3D 地图规划路径并做出实时驾驶决策这种分工使 FSD 能够更高效、更精确地处理自动驾驶的复杂性。这些算法通过Hydranet算法缝合起来,整个系统,从前端到后端,都可以一起训练。这种训练方法现在包括端到端人工智能,通过让每个单独的组件学习如何与系统中的其他组件交互来优化整体系统性能。有了这个上层算法结构之后,底层硬件如何承接这些算法运算?
特斯拉采用了定制编译器的方法由于不同的硬件组件擅长不同的功能 - 而且它们也需要不同类型的指令。CPU、GPU 和专用 AI 加速器 (NPU) 都具有独特的架构和功能。Tesla 使用编译器工具链将 FSD 转换为针对每个硬件组件量身定制的机器代码。这可确保指令在每个处理器上以最佳方式执行,从而最大限度地提高性能和效率。
为了进一步优化性能,特斯拉采用了一种分配任务的系统,可以智能地将每个 FSD 子网络分配给最合适的硬件组件。这确保计算要求高的任务由最强大的处理器处理,而较简单的任务则委托给更高效的单元。这种战略性的任务分配最大限度地提高了系统的整体效率,确保每个组件都在其最佳性能范围内运行。硬件执行指令的顺序对性能也起着至关重要的作用。
特斯拉的系统包括一个“执行调度程序”,它可以确定最有效的操作顺序,最大限度地减少延迟,最大限度地提高实时响应能力。为确保可靠性和安全性,特斯拉的系统支持冗余硬件配置。这意味着,如果关键组件发生故障,备用组件可以无缝接管,防止运行中断。这种冗余和故障转移功能对于维护自动驾驶系统的安全性和完整性至关重要,尤其是在驾驶时。特斯拉为 FSD 内置了物理和软件冗余,确保其在自动驾驶时保持最低安全标准。此外,特斯拉算法架构,还涵盖整个数据拓展链路,它基于根据触发信号传输选择性的传感器信息。
这些触发信号可能包括错误的预测、用户干预或未能正确进行路径规划。这样一个闭环系统,确保不符合预期的数据得到回传,供算法迭代。那么海量的数据如何处理也是一个大问题,特斯拉不少专利分享过,下次有机会解读分享下。感知秘诀 - 基于VRU和非VRU的BEV和Occ其实,我们开车的时候最怕的是安全事故,根据特斯拉专利US20230057509A1介绍,特斯拉感知算法对于道路上可能的交通参与者,按照可能伤害进行分区,分为两部分:弱势道路使用者(VRU),VRU 定义为行人、骑自行车的人、婴儿车、滑板者、动物,基本上是任何可能受伤的人。
非 VRU ,另一部分针对不属于该类别的其他所有序列,例如,汽车、应急车辆、交通锥、碎片等。将其分为两个分支使 FSD 能够查找、分析并确定某些事物的优先级。本质上,在整个虚拟摄像机系统中,VRU 的优先级高于其他对象。
特斯拉处理所有原始图像,将其输入到 VRU 和非 VRU 分支,并仅挑选出关键和必要的信息,用于物体检测和分类。有了这些感知物体的信息,然后,系统将这些对象根据距离等关系,绘制3D BEV图。并在不同高度创建“虚拟相机”。虚拟相机可以看作是用于拍摄电影的真实相机。它允许系统从特定角度观看场景,从而可以更广泛地观察交通情况。
形成3D映射占位- BEV+Occupancy时空关系组合。现在,将所有这些数据结合起来。这两个虚拟摄像头是同步的,它们的所有信息和理解都会反馈到系统中,以保持车辆周围情况的精确 3D 地图。 而且不仅仅是摄像头。虚拟摄像头系统和 3D 地图与汽车的其他传感器协同工作,将运动数据(速度和加速度)纳入 3D 地图的分析和制作中。
特斯拉汽车屏幕上显示的 FSD 可视化效果最能理解该系统。它可以同时拾取和跟踪驾驶环境中许多移动的汽车和行人。当然,我们看到的只是它所跟踪的所有信息的一小部分。其实可以特斯拉算法可获取更多未显示在屏幕上的属性。例如:行人其距离有多远、移动的方向以及行进速度有多快。其他移动物体(例如车辆)可能具有其他属性,例如宽度、高度、速度、方向、规划路径等。
即使是非 VRU 物体也会包含属性,例如道路,其宽度、速度限制等将根据 AI 和地图数据确定。自车本身具有一系列属性,例如速度、宽度、长度、规划路径等。当将所有这些道路上物体的属性结合起来时,自动驾驶最终就会对周围环境以及如何最好地驾驶有很好的了解,也就形成了我们常听到的BEV+Occupancy时空关系组合,当然这个时空关系还有两个指标一个是刷新率一个是分辨率都很高,国内应该没有能比的。那么下一步就是基于这些信息进行路径规划和驾驶,当然规划控制和环境认知是同步进行的。规控秘诀 - 考虑延迟,实时建模自动驾驶系统不管是端到端还是其他结构,他都离不开几个关键组件组成:传感器套件:从安装在车辆上的各种传感器收集原始数据。
感知系统:处理传感器数据以了解车辆的环境。规划系统:根据感知环境和车辆状态确定最佳轨迹。控制器:将规划的轨迹转换为车辆执行器的特定命令。执行器:执行命令来控制车辆的运动。其实自动驾驶不但感知算法从接收到光信号到感知成环境信息有延迟大概小几百毫秒之内,当然上文讲到特斯拉算法应该是100ms之内;而且执行系统也有,当这两者相差大或者匹配不好的时候,规划控制就会不丝滑。
特斯拉WO2024039866A1专利,介绍过其规划控制系统内的创新,这对于生成安全、舒适和高效的轨迹并考虑整个系统固有的延迟至关重要,从而让乘客体味到“老司机”般的丝滑开车控制。
首先特斯拉采用了动态延迟建模和实时轨迹优化的方法特斯拉算法能够实时模拟各种车辆部件的延迟,从而能够更准确地预测和控制车辆状态。这解决了自动驾驶的一个关键挑战:感知、决策和行动之间的延迟。
如图上图所示,系统考虑了不同组件的延迟,从规划器执行到单个执行器的响应。这种综合建模使系统能够根据每个车辆组件的实际性能特征优化轨迹。
实时轨迹优化会考虑这些建模延迟,从而打造更准确、响应更灵敏的驾驶体验。通过预测系统中的延迟,车辆可以做出主动决策,从而实现更平稳、更安全的自动驾驶。
此外,特斯拉采用了分离横向(方向盘)和纵向(油门刹车)控制的方法。
将轨迹规划分为横向(转向)和纵向(加速/制动)部分。通过独立处理这两个运动方面,这种分离可以更精确地控制车辆。
上图说明了系统如何分别处理横向和纵向控制。这种方法认识到转向和加速/制动系统可能具有不同的响应时间和特性。通过对横向和纵向控制使用单独的数学函数,系统可以独立优化每个方面,从而有可能提高整体性能。
通过分别处理这些因素,系统可以独立优化每个控制方面,从而提高各种车辆平台的整体性能。这种方法对于将全自动驾驶 (FSD) 系统应用于特斯拉多样化的车辆系列以及可能应用于其他制造商的各种车型至关重要。
最后,特斯拉算法采用前馈状态估计与持续优化的方法
前馈方法估计车辆状态,并根据真实数据不断优化其性能。此功能使系统能够预测未来状态并做出主动决策,而不是简单地对当前状况做出反应。
如下图演示了如何通过前馈估计考虑系统延迟以获得更准确、更平滑的轨迹。
该系统使用有关车辆当前状态的信息来估计车辆沿着先前规划的轨迹行驶了多远。这种前馈过程使系统能够保持规划周期之间的一致性,并更有效地应对不断变化的条件。
该专利还提到在轨迹规划中使用神经网络等机器学习模型。这些复杂的模型旨在找到兼顾可行性、安全性和乘客舒适度的轨迹。
最后不得不佩服特斯拉算法,整体架构面的设计逻辑都是奔着AGI或者Physical AI的通用方向去。Tesla FSD进入中国,毫无疑问是中国自动驾驶的“鲶鱼”,将会再一次激发中国自动驾驶的活力,促进中国自动驾驶产品和技术的进步。对于文章开头的言论,Jack敢这么说,也主要是工作的原因对市面上所有智能驾驶从实际驾乘体验到背后技术方案都有一定的了解。回到文章开始的Bonus问题,特斯拉的 FSD 算法是不是可以蒸馏出来呢?回答应该是很难,Physical AI的算法体系和digital Agent的算法体系差异是实时性和安全性。而这种差异性体现在与Physical的结合,不同物理(physcial)载体的延迟 latency 和结构不一样。不过最近,特斯拉发布一篇新的论文,特斯拉应该考虑如何将特斯拉算法架构平台化,方便移植不同的硬件平台,适配不同的OEM主机厂,下期再见。未经准许严禁转载和摘录-参考资料:
特斯拉FSD人工智能专利WO2024073115A1《AI INFERENCE COMPLIER AND RUNTIME TOOL CHAIN》pdf
特斯拉FSD人工智能专利US20230057509A1《VISION-BASED MACHINE LEARNING MODEL FOR AUTONOMOUS DRIVING WITH ADJUSTABLE VIRTUAL CAMERA》pdf
特斯拉FSD人工智能专利WO2024039866A《1Real time trajectory planning system with dynamic modelling of component level system latency for self driving vehicles》pdf
原文标题 : 特斯拉FSD算法技术解读 - 国内FSD测试特斯拉真输了么?