Waymo最新推出的WOD-E2E数据集有何意义?
随着自动驾驶技术的不断演进,系统在高速公路及部分城市道路已展现出较强的辅助驾驶能力。然而,尽管技术日趋成熟,自动驾驶仍未实现大规模落地。究其原因,并非是因为系统在99%的常规场景中表现不足,而是因为在剩余1%的极端、罕见但风险极高的场景中,系统必须具备稳健的反应能力。
设想一个典型场景:在高速行驶时,突然有一头野猪从路边冲出,或者前方车辆掉落物品,这类事件虽发生概率低,但一旦出现,系统必须能够迅速做出安全、合理的决策。
针对这一挑战,Waymo最新发布了WOD-E2E(Waymo Open Dataset for End-to-End Driving)数据集,专为端到端驾驶研究打造,旨在提供高保真、面向“长尾”场景的测试资源。
WOD-E2E的核心价值体现在其稀缺性与针对性。该数据集并非简单地将普通驾驶片段汇总,而是从海量真实行驶数据中精挑细选,提取出那些罕见但具有代表性的高风险片段。通过聚焦这些关键事件,研究人员能够更精准地定位系统在极端情况下的薄弱点。
相较于传统的常规数据评估方式,WOD-E2E更注重通过具有代表性的极端片段来揭示系统在临界状态下的决策能力。例如,模型是否能在紧急时刻合理制动、及时避障,或保持稳定车道,这些才是判断其是否具备实际部署能力的关键标准。公开此类数据,有助于统一评估标准,推动端到端系统从“能够运行”迈向“可以安全落地”的阶段。
WOD-E2E包含哪些内容?
WOD-E2E数据集由4021个持续20秒的高质量真实驾驶片段组成,总时长约为12小时,集中展示了需要即时决策的“长尾”场景。每个片段均配备八个环绕摄像头的图像,覆盖车辆的360度视野,图像采样频率为10Hz,同时提供车辆的历史轨迹、速度与加速度等参数,以及高层路径指令,如直行、左转和右转。
训练与验证集中还提供了未来五秒的真实轨迹,便于实现监督学习与性能评估。Waymo将这些片段按场景类型进行了系统分类,包括施工区域、复杂交叉口、行人或骑行者的异常行为、多车道竞争、路面异物、特殊车辆交互等,涵盖多种极具挑战性的驾驶情境。
此外,WOD-E2E引入了Rater Feedback Score(RFS),一种基于人类偏好的评价指标。传统评估方式往往仅关注预测轨迹与实际轨迹之间的距离,而忽视了在紧急避险情境中,偏离原始轨迹反而可能是更合理的选择。
RFS的评估机制为:模型生成若干候选轨迹后,由人工评估员从安全性、合法性、响应时机、是否需要刹车、效率等多个维度对代表性轨迹进行评分,形成参考轨迹集合。模型预测结果若落在某条参考轨迹的“信任区域”内,则获得对应分数;若偏离,则按指数衰减方式扣分,并设有最低得分保障。
这种方式允许存在多个合理决策选项,强调与人类判断的一致性,相较于单纯的轨迹距离误差,更能体现系统的安全性和可接受性。
图片源自:参考报告
目前,端到端自动驾驶研究主要分为几种主流方法,各有其在处理“长尾”场景中的优势。其中,将多传感器数据投影到鸟瞰图(BEV)并在此空间中完成感知与规划的方法,在空间一致性与全局决策方面表现优异,适用于复杂路口和多车道场景。
由于具备知识迁移与推理能力,将多模态数据映射到语言语义空间,结合大语言模型(MLLM)进行推理的方案,在处理语义复杂或未知场景时更具优势。
而基于生成式或扩散模型的轨迹预测方法则擅长提供多种可行解,便于后续系统进行风险分析与决策。
研究表明,在WOD-E2E上进行有针对性的微调、扩展完整感知输入、或在推理时进行多样本采样,均可显著提升RFS得分。此外,将RFS作为强化学习的奖励信号,也能有效引导模型朝更符合人类偏好的方向优化。
WOD-E2E对自动驾驶研究的影响
WOD-E2E为自动驾驶研究提供了一个更贴近现实挑战的评估基准,有助于开发出更具针对性的算法。它推动研究者不再单纯追求轨迹拟合度,而是更加关注训练目标、损失函数设计以及系统不确定性表达。
对工程团队而言,该数据集是增强系统安全性的有力工具。研究人员可先使用大规模常规数据构建模型的基础能力,再以WOD-E2E作为“加固集”进行微调和压力测试。评估时结合传统误差指标与RFS等人类偏好的评估标准,既能保障系统在常规场景下的表现,也能提升其在关键时刻的应对能力。
当然,在将WOD-E2E纳入训练和验证流程时,不应将其视为唯一的数据来源。通过合理的数据增强与情境合成,可在有限样本基础上扩展其使用价值,但必须确保合成数据在动力学与视觉层面的合理性。
若目标是提升语义推理能力,可尝试将视觉与状态信息结构化并映射到语义空间,交由MLLM进行高层推理;若更关注实时性与空间一致性,则BEV-based端到端框架仍是稳妥之选;若希望为下游模块提供多个决策选项,以便进行风险比较,则生成式或扩散模型更为适用。将RFS作为训练目标(如强化学习的奖励函数或辅助监督信号),往往比单纯优化平均位移误差(ADE)更能提升系统在长尾场景下的稳健性。
图片源自:参考报告
结语
WOD-E2E的价值不仅在于它提供的几小时真实驾驶片段,更在于其将“长尾问题”与“人类偏好对齐”的评估理念引入端到端驾驶研究的主流议程。借助该数据集,研究成果得以在更贴近真实、更具挑战性的场景中接受检验,同时帮助工程团队在模型部署前完成更全面的强化测试。
唯有在这些关键问题上取得突破,自动驾驶技术才能真正从实验室原型走向现实道路,实现持续、安全的运行。
编者语:本文参考报告:《WOD-E2E: Waymo Open Dataset for End-to-End Driving in Challenging Long-tail Scenarios》。
-- END --