Waymo发布WOD-E2E数据集,为端到端自动驾驶研究提供新基准
近年来,自动驾驶技术已能在高速与部分城市道路中实现高度辅助驾驶,但距离大规模部署仍有一定距离。决定自动驾驶系统是否具备实用价值的关键,并非常见场景下的表现,而是极少数却极具危险性的极端情况。
例如,在高速行驶过程中,突然有野猪横穿道路,或前方车辆掉落障碍物,这类场景虽发生概率极低,但对自动驾驶系统提出了极高的响应与决策要求。为应对这类“长尾”问题,Waymo推出了WOD-E2E(Waymo Open Dataset for End-to-End Driving)数据集,旨在为端到端驾驶研究提供高真实度的测试平台。
该数据集的核心优势在于其稀缺性与针对性。不同于常规数据的简单组合,WOD-E2E从海量驾驶数据中筛选出那些罕见但具有代表性的危险场景,让研究人员可以聚焦于系统最薄弱的环节。
相比依赖常规数据评估模型的方式,WOD-E2E更倾向于使用那些能揭示模型潜在缺陷的关键片段。在面对紧急状况时,模型是否能够做出如合理刹车、及时避障或稳定保持车道等安全决策,是衡量其安全性的关键标准。通过开放这一数据集,业界可以在统一标准下对不同方法进行比较,从而推动端到端系统从“能够运行”迈向“能够安全落地”的阶段。
WOD-E2E数据集包含哪些内容?
WOD-E2E由4021个20秒的真实驾驶片段组成,总时长约12小时,聚焦于需要即时决策的复杂场景。每个片段配备八个环绕摄像头图像,覆盖车辆360度视野,采样率为10Hz,并附带自车的轨迹、速度与加速度数据,以及高层导航指令(如直行、左转、右转)。
训练与验证集还包含未来五秒的真实轨迹信息,便于进行监督学习与性能评估。Waymo将这些片段按照场景类型进行了分类,涵盖施工区、复杂路口、行人或骑行者的非常规互动、多车道竞争、路面异物及特殊车辆交互等多种长尾情形,每一类都代表了不同的决策挑战。
WOD-E2E引入了Rater Feedback Score(RFS)这一与人类偏好对齐的评估指标。传统轨迹误差指标通常仅关注模型预测与真实轨迹的距离,但在紧急避险情况下,偏离既定轨迹反而可能更安全。
RFS的评估方法是让模型生成多条候选轨迹,再由人工评估者从安全性、合法性、反应时机、刹车必要性及效率等多个维度进行评分。若模型预测轨迹落在参考轨迹的“信任区域”内,则获得对应分数;若偏离,则按指数衰减方式扣分,并设置最低分保障。这种方式允许存在多种合理动作,更贴近人类判断,也更能反映系统的安全性和可接受性。
图片源自:参考报告
当前端到端自动驾驶研究存在多种主流范式,各自在长尾场景中展现出不同优势。将多传感器信息投影至鸟瞰图(BEV)并在该空间内完成感知与规划的方法,在空间一致性与全局决策方面表现出色,适合复杂路口与多车道环境。
大语言模型(LLM)因其具备世界知识和推理能力,通过将多模态输入映射至语言或语义空间,能够更好地应对语义复杂或前所未见的场景。
基于生成式或扩散模型的轨迹生成器擅长表达多样性,提供多个可行解,有助于后端进行风险比选。
通过在WOD-E2E上进行微调、引入完整环绕输入或在推理阶段进行多样本采样,可显著提升RFS得分。此外,将RFS作为强化学习的奖励机制,也能引导模型向更符合人类偏好的方向优化。
WOD-E2E对自动驾驶研究的意义
WOD-E2E为自动驾驶研究提供了一个更贴近现实挑战的基准,有助于开发出更适应长尾场景的算法。它促使研究者不再单纯追求轨迹匹配,而是从训练目标、损失函数设计与不确定性建模等方面做出调整。
对于工程团队而言,该数据集可用于提升系统安全性。它可以作为“加固集”——在使用大规模常规数据训练模型基础能力后,再通过WOD-E2E进行微调和压力测试。评估阶段可同时使用传统误差指标与RFS等人类对齐指标,从而在保障日常性能的同时,增强在紧急情况下的决策能力。
然而,在将WOD-E2E纳入训练与验证流程时,不应将其作为唯一数据源。通过合理的数据增强与情境合成,虽可提升小样本的利用率,但仍需确保视觉和动力学的真实性。
如果目标在于增强语义推理能力,可以考虑将视觉与状态信息转化为结构化语义或指令,交由大语言模型进行高层推理;若更重视实时性与空间一致性,则BEV-based的端到端方法更为稳妥;如需提供多种备选方案以辅助风险评估,生成式或扩散模型则是更优选项。将RFS纳入训练目标(如作为强化学习奖励或辅助监督)相比仅优化轨迹误差,更能提升模型在长尾场景中的性能。
图片源自:参考报告
结语
WOD-E2E的价值不仅在于其包含的几小时数据,更在于其将“长尾问题”与“人类偏好对齐”这两个关键议题带入了端到端驾驶研究的核心议程。它为研究成果在复杂、危险的现实环境中提供了更可靠的检验标准,也为工程团队在模型部署前提供了更全面的安全验证工具。
编者语:本文参考报告:《WOD-E2E: Waymo Open Dataset for End-to-End Driving in Challenging Long-tail Scenarios》。
-- END --