科技创新！

圆桌对话｜智能驾驶行业真的需要大模型吗？

2024-12-02 23:13:58 admin

圆桌对话｜智能驾驶行业真的圆桌需要大模型吗？

“真正的智驾大模型应该像条野狗，即它不能囿于家养的对话环境和数据，而是驾驶在真正意义上的开放域海量数据之上产生的。”

ChatGPT的行业需爆发，让大家看到了大模型的模型无限可能性。这个热浪席卷到了各行各业，圆桌智能驾驶行业也不例外。对话

大模型就像是驾驶雷神之锤，如果没有适合它的行业需钉子，就难以发挥被期许的模型价值。而大模型能否和智能驾驶进行联动，圆桌如果可以，对话它又能为智能驾驶给予多大的驾驶想象空间，这些依然是行业需目前需要讨论的问题。

这也有了清华大学邓志东教授的模型这番有意思的比喻。

近期，由辰韬资本主办、中信证券协办的“未来以来创见未见”第二届智能驾驶商业化落地与产业发展趋势主题研讨会在北京举行。

在“AI大模型如何赋能智能驾驶”主题论坛中，清华大学人工智能研究院视觉智能研究中心主任邓志东教授、北京极佳视界科技有限公司CEO黄冠博士、北京恺望数据科技有限公司CEO于旭、苏州智加科技有限公司首席科学家崔迪潇博士参与了讨论。

以下是圆桌对话的现场内容，雷峰网《新智驾》做了不改变原意的编辑和整理：

主持人：当下基本上所有的论坛都言必提大模型。大模型跟智能驾驶产业是否能结合、如何结合，是本场活动需重要讨论的话题。首先有请各位嘉宾先讲讲自己对AI大模型的理解。

崔迪潇：有大模型，相应的就有小模型、普通模型，那说明一定有一些问题是普通模型解决不了的，需要用大模型去解决。

我更多会站在应用的角度去看大模型，比如它是否能做一些普通模型做不了的事情，以及它是否能做得更好、更快、更便宜。如果要将大模型赋能到自动驾驶的研发中，核心要看的是在整个技术研发迭代过程中，大模型是否能让自动驾驶研发效率提高，研发成本降低，还能让性能持续稳步地提升。

黄冠：我们认为，自动驾驶大模型是必须的，在其中，通用性跟泛用性是关键，成熟的自动驾驶大模型一定要结合语言模型和多模态。而要具备通用性，需要结合一套自监督的范式去实现压缩物理世界。

于旭：原来智能驾驶的数据行业，背后有很多的人工，而大模型出现之后，用AI去做AI，在这个方向上可以有更多的想象空间，比如怎么把大模型用到数据架控的产线上，包括怎么让最后的大模型能有好的结果，我们看到很多新的机会。

邓志东：大模型赋能自动驾驶，需要以人类的自然语言、人类的思维贯穿智能驾驶的感知、预测、规划、决策、规控等整个链条和环节，同时还需要综合运用多模态的视觉语义、常识以及专业知识，让它有跨任务、跨领域、跨场景的泛化能力。它会带来一场大的变化。

主持人：AI不能算是新事物，大模型也不是新事物，但AI、大模型跟智能驾驶结合在一起，它就变成了新鲜事物。它正在进行产业化，也正在进行新的探索，现在有一个问题需要搞清楚，什么是智驾大模型？大家对它的定义是什么？

崔迪潇：在定义智驾大模型之前，需要先定义大模型。什么是大模型？怎么定义这个“大”？通常理解，“大”可能是模型参数量的“大”。但个人觉得，“大”背后反映的是它能做多少事情。

大模型需要有通用性，本质上要解决跨任务的通用性，意味着它需要能解决不同的任务，有跨知识领域的通用性。GPT里面就有通用性，能够把所有不同的任务统一到自然语言处理的框架中。

此外，当模型的参数在达到一定的数量级之前，参数量和性能呈现线性相关性，这个阶段参数量提升，性能就会线性提升。在参数量达到更大规模以后，系能会有一个非线性的提升，这种性能显著提升之后，会有大家提到的涌现的现象出现。

这也是大模型受到关注的关键。

那智驾里面是否真正存在我们讨论的所谓大模型？

一方面，我们现在看到的智驾大模型更多是汽车行业的垂直模型，它们分布在各个智驾技术栈，或者是特定场景的端到端；

另一方面，因为自动驾驶它是一个又像开源又像闭源的人工智能系统，我们既要强调泛化性，也要强调可控性，同时它的一致性也是要保证的。

但事实上系统泛化能力提升会带来一些问题，比如它的某些涌现可能对智驾系统是不可控的、也是不可接受的。所以，我并不认为在智驾领域存在真正意义上的大模型，这是我个人的理解。

于旭：刚才崔总对大模型的分享非常精彩，结合这个点说一下我的理解。质量的涌现让我们在自动驾驶可以用新的思考、新的方式带来行业的规模化，包括这些新的体验感。大模型是带来了曙光，我们认为这个曙光可以分阶段地进入到自动驾驶行业里，比如可能先从局部进入再逐步发展到全局，这是一个长线的过程。

黄冠：我们非常相信自动驾驶大模型。在我们看来，整个自动驾驶行业发展经历了三个阶段和变革。

第一阶段是Waymo带来的L4 Robotaxi进行了一套系统化运营；第二个阶段是特斯拉那一套靠视觉和AI带来行业成本的降低和泛化性的提升；而第三次则是这次大模型给行业带来的想象，它会把这个行业的上限无限撑高，走向L4或者AGI，并且同时提升数据、研发、测试等各个层面的效率。

而自动驾驶大模型该如何解决，核心的问题还是通用性跟泛化性的问题该怎么解决？第一，需要把语言引进来，因为语言有很强的认知能力，比如我知道我开车我不能走悬崖。现在这一套自动驾驶方案既识别不了悬崖，也不知道能不能走悬崖，但是语言的大模型是知道不能走下悬崖的。

第二，需要针对物理世界场景，尤其是视觉场景需要有一套方式去进行自监督地压缩。多模态则是认识各种悬崖的，它可以再跟自动驾驶结合起来，加强自驾大模型对世界的泛化认知和感知理解能力。

综上，我们理解的自动驾驶大模型是，能够解决通用性和泛化性，把视觉、语言和多模态引进来，通过物理世界的预测解决自监督的物理世界压缩的问题。

邓志东：什么是智驾大模型？首先要有人类的语言智能与人类思维贯穿；其次能综合利用视觉与多模态的语义，同时还要有常识，还必须有驾驶的专业知识。

这其中比较关键的是视觉语义，尤其是对驾驶场景与目标、语义地图、决策规划进行时空关系的世界建模。常识的利用部分，可以直接使用文本大型语言模型，比如现成的ChatGPT，准确说是利用GPT-4的API，用这个API调用，可以把一般性的交通知识、交通法规，包括驾驶行为相关的一系列常识，都放进去。

但是光有常识还是不够的，因为它可能没有那么精细、专业，本身在预训练时也没有喂养更多的场景数据。我们还需要利用驾驶知识、驾驶技巧、驾驶经验这类专业知识，这就需要发展智驾GPT之类的定制化垂域GPT。

这些我们现在正在探索着基于视觉和文本在做，但是因为文本是符号系统，所以我们需要把符号系统和真实物理世界的时空连续系统进行语义对接。对接起来之后视觉的所有语义都可以用ChatGPT的文本语言智能进行贯穿。

对接很重要，因为我们现在要做的就是视觉语义与文本语义的对接或对齐。对接可以通过自监督的方法，在潜空间里进行，现在看来是能够成功的。

对接之后就联系起来了，视觉的语义及其关系都用文本语言智能贯穿，就可以引入常识和专业知识，真正实现知识驱动。视觉语义与文本语义的对接或叫grounding，现在可以利用视觉-文本预训练模型实现。总之，跨模态或者多模态的通用人工智能非常重要。

弱人工智能时代过去了，相信以后会发生很多变化。比如不需要再去为单一任务做大量标签，因为弄完之后还解决不了问题，做到95%的准确率都难，增加一个训练集之外的类别或换一个任务或场景，马上就会出现问题。

利用完全监督学习的弱人工智能方法是不可取的，很难产业落地。以后也会出现专业分工或供应链，比如可以直接提供各种预训练模型，包括图像、视频、点云的预训练骨干模型，也有多模态或语言的，甚至将各种预训练模型集成到专业硬件里面做到车载，用户仅需用提示词微调一下或直接作为功能模块就可使用，达到比自己研发更好的性能。

这个阶段我相信很快就会到来。

以后编程的方式也可能会发生变化，不用再去对场景的每个细节都去做算法编程，去查漏补缺但还是有边缘事件没有Cover到。以后就让它自己在实践交互中进行学习，因为它有视觉、懂语义，有常识，也有专业知识。

可以这么比喻，就像一个新手刚从驾校出来，也不需要再做文本方面的知识培训了，所要做的事情就是实践，多开车，多上路，实践多了就变成老司机了。

主持人：如果这样的话，是不是意味着在智驾大模型里面不需要标注了？

邓志东：标签要用工业化生产的方式，人工标注就是数据飞轮的一个启动或需要人工去做其他的专业标注。不是现在家家需要标签，小作坊式的，可能是做预训练骨干模型的公司去提规模化标签需求或做规模化生产，包括利用大模型这样的东西，混合人工与机器，部分有问题的标签还需要人工去审核清洗等。

黄冠：ChatGPT也需要标注。

邓志东：另外，对通用人工智能，要用开放域数据。这个数据不需要你去专门采集做闭集标签，互联网上有很多驾驶视频，利用众包或通过其他供应商，也可以给你提供全世界各种各样真实的视频驾驶巨量数据，这个我们叫开放域数据。

它的类别不再是固定的数量，比如1000种物体类别；视觉-文本对也可能不规整，噪声或污染也可能比较严重，也需要进行人工加机器的清洗、对齐等。

但可以做到万亿token以上的巨量，智驾大模型依然什么都可以检测、分割与识别出来，而且还是零样本使用或不需要用户进行再训练。现在各家车企做的大模型或小模型，可以看成是一只家养的狗，而真正的智驾大模型应该是野生的狗。

在我们的认知里，野狗总比家养的狗生存能力要强很多，因为它们生存在“野外”，接触到的环境远比家狗接触到的要恶劣、复杂。

相应地，真正的智驾大模型，不应该是在闭域数据集里进行预训练，而是在真正意义上的开放域海量数据里产生。

于旭：大模型需要有一个质量涌现的过程，这个背后需要巨大量产车在外面跑，现在这个时间阶段上，大家都在量产上争分夺秒。这里面看到了很多新机会，像在数据的加工生产上，标注作为一个刚需，以前是加工，现在是面对的场景有很多，包括像刚才邓老师提到的开源，用大模型分割一切，这套做法我们刚好把它应用在了现在的主机厂服务里面，最后质量的把控还是要靠人来做。

主持人：请问一下极佳的黄总，做智驾大模型刚开始需要很多的数据，极佳如何解决数据冷启动的问题？

黄冠：智驾大模型可能不是一个只靠驾驶数据训出来的模型，那样永远没有认知，没有多模态能力。所以我们认为它冷启动，确实要把语言模型和多模态模型引入进来，只有这样，才能向着智驾大模型这样一个方向走。

语言模型已经见过海量数据，有非常强的认知能力；而多模态的模型，也见过了大量的图像视频3D数据。

把语言模型、多模态模型引进之后的第二步，则是数据要在场景下去做适配、对齐，或者是通过自驾的数据自监督做自驾场景的压缩。在这个场景下需要大量的数据，但是如何才能让整个行业去共享乘用车数据，需要国家层面、行业层面以及企业层面都要多做一些合作和深入探讨。

主持人：接下来有个问题问一下智加科技的崔总，您是做无人驾驶重卡场景的，关于量产车的数据采集，如何确保低成本高质量、并且符合法规要求的数据收集以及传输？

崔迪潇：这可能跟大模型本身不太相关，这是在我们走向大规模量产或者走向更大海量数据过程中就需要解决的问题，低成本高质量必须同时满足，因为高成本高质量、低成本低质量数据获取是不需要努力的。

自动驾驶的数据获取跟系统的架构有关系，下面讨论的所有观点不包括端到端自动驾驶，因为端到端自动驾驶的数据应该怎么获取，我个人没有非常一线的工作经历，我很难妄下结论，怕被打脸。

针对现在模块化的智驾系统，最好的方式把它的数据系统做得灵巧可伸缩，核心是所有的数据采集触发的时间点和时长、采集的数据帧率和分辨率、数据维度和压缩比、回传策略等都是和特定的任务相关的，也就是被采集数据所在的具体模块和数据采集要优化的目标。

我们有一套包含500多个标签的场景分析体系，根据系统的表现决定回传的采样频率。

为了降低回传成本，数据压缩也需要考虑，比如直接把图像压缩到70%，再解出来，能不能得到跟Raw Data一样的效果，如果不能，再对应地调整。

在检测端的数据是要回传单帧还是多帧？时序任务，应该在当前时间点往前往后各回传多少帧？如果是安全性相关的任务，那它在整个数据回传的过程中优先级应该怎么设置？

相关问题我们在开发过程中都会结合场景和系统性能做很多定制化的设计。

设计过程确实比较繁琐，但这些工作必须做。我们系统有在线实时的指标回传功能，每隔几分钟到一个小时就能看到量产车上关键指标的变化，这些指标的变化也会再次影响线上系统的数据采集配置。

主持人：感谢大家，咱们现在聊聊趋势。接下来请大家分别讲讲个人对于自驾大模型或者智能驾驶行业还有就包括机器人、具身智能这些新鲜事物未来发展的图景。比如说未来三年大家可以感知到的AI大模型，智能驾驶的可能性等等，聊聊自己的判断。

于旭：大模型让我们看到算法的门槛变低了，这个时候就像过去的移动互联网一样，当时有很多的APP，现在在算法新的时代里面，又有非常多的AI应用。我们在创造更好的大模型，这个技术手段也希望能应用到更多的商业场景中，使得AI应用有不断的提升。它给我们带来了很多希望，我还是非常看好这一技术的。

黄冠：长话短说，我们非常看好这个趋势，我们觉得大模型可能对从驾驶到具身智能到通用机器人，都会带来很不一样的东西，就会从数字世界的AGI走向物理世界的AGI。

崔迪潇：当前自动驾驶行业，大模型已经在发挥一些作用，比如感知端、驾驶决策端，我们都看到了大量很好的技术演示和应用。至于规控端会不会做大模型，我个人持保留意见，因为目前在控制上，我们依然需要对车辆做精确建模。

虽然看到很多演进趋势，令人振奋，但必须要提醒一个事实，即大模型依然没有脱离深度学习框架，不可避免地会存在统计性和概率性问题，大规模应用中一定有它处理不了的场景。

对于所有做L4的同事和同行来说，必须要保持警醒，大模型可以加速L4到来，但它不能解决所有L4的问题。在L4的系统架构设计中，我们要在一个更强大的数据驱动的智驾大模型的基础上，继续坚持做安全冗余，因为L4是一个既要求泛化性，又要求可靠性和一致性的系统，这两点不一定靠大模型就能解决掉。这是我的一个额外观点。

主持人：教授做个总结。

邓志东：未来自动驾驶的研发范式会发生很大的改变，主要有四个方面：

第一，从完全监督的学习方式变成零样本学习，类似分割一切；

第二，从原来基于闭源的众包数据集变成利用开放域的巨量数据；

第三，从原来的单任务变成多任务，最后变成一个与任务无关的通用模型，比如原来的视觉语义模型只能做分割，但不能做检测、分类或者不能做跟踪，后面就会变成所有都能做；

第四，会从原来的弱人工智能变成研发与使用通用人工智能，从对每个细节的算法编程，变成一个能够主动融入真实物理世界、亲自实践、亲自与物理环境进行交互学习的机器“人”。

雷峰网(公众号：雷峰网)雷峰网