7月5日,理想汽车发布基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构,并开启新架构的早鸟计划。理想汽车智能驾驶研发副总裁郎咸朋表示,从2021年启动全栈自研到今天发布全新的自动驾驶技术架构,理想汽车的自动驾驶研发从未停止探索的脚步。理想结合端到端模型和VLM视觉语言模型,带来业界首个在车端部署双系统的方案,也首次将VLM视觉语言模型成功部署在车端芯片上。
双系统算法原型,让自动驾驶拟人思考
理想汽车的自动驾驶全新技术架构受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发,在自动驾驶领域模拟人类的思考和决策过程,形成更智能、更拟人的驾驶解决方案。
据介绍,快系统即“系统1”,善于处理简单任务,是人类基于经验和习惯形成的直觉,足以应对驾驶车辆时95%的常规场景。慢系统即“系统2”,是人类通过更深入的理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%。“系统1”“系统2”相互配合,分别确保大部分场景下的高效率和少数场景下的高上限,成为人类认知、理解世界并做出决策的基础。
理想汽车基于快慢系统系统理论形成自动驾驶算法架构的原型。“系统1”由端到端模型实现,具备高效、快速响应的能力。端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆;“系统2”由VLM视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到“系统1”。双系统构成的自动驾驶能力还将在云端利用世界模型进行训练和验证。
端到端模型无缝输出
端到端模型的输入主要由摄像头和激光雷达构成,多传感器特征经过CNN主干网络的提取、融合投影至BEV空间。为提升模型的表征能力,理想汽车还设计了记忆模块,兼具时间和空间维度的记忆能力。在模型输入中,理想汽车还加入车辆状态信息和导航信息,经过Transformer模型的编码,与BEV特征共同解码出动态障碍物、道路结构和通用障碍物并规划出行车轨迹。
多任务输出在一体化的模型中得以实现,中间没有规则介入,因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。在实际驾驶中,端到端模型展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力及更拟人的路径规划能力。
VLM视觉语言模型高上限
VLM视觉语言模型的算法架构由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给端到端模型辅助控制车辆。
理想汽车的VLM视觉语言模型参数量达22亿,对物理世界的复杂交通环境具有强大的理解能力,即使面对首次经历的未知场景也能自如应对。VLM模型可以识别路面平整度、光线等环境信息,提示端到端模型控制车速,确保驾驶安全舒适。此外,VLM模型具备更强的导航地图理解能力,可以配合车机系统修正导航,预防驾驶时走错路线。同时,VLM模型可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则,在驾驶中作出合理决策。
世界模型“重建+生成”相结合
理想汽车的世界模型结合了重建和生成两种技术路径,将真实数据通过3DGS(3D高斯溅射)技术进行重建并使用生成模型补充新视角。在场景重建时,其中的动静态要素将被分离,静态环境得到重建,动态物体则进行重建和新视角生成。此后,再经过对场景的重新渲染,形成3D的物理世界,其中的动态资产可以被任意编辑和调整,实现场景的部分泛化。相比重建,生成模型具有更强的泛化能力,天气、光照、车流等条件均可被自定义改变,生成符合真实规律的新场景,用于评价自动驾驶系统在各种条件下的适应能力。
重建和生成两者结合所构建的场景为自动驾驶系统能力的学习和测试创造更优秀的虚拟环境,使系统具备高效闭环的迭代能力,确保系统的安全可靠。
北京商报记者 刘洋