第6个科技工作者日主题（一场属于理想的）

南宫潋鸿 2023-03-16 02:15:27

第6个科技工作者日主题（一场属于理想的）(1)

理想 L9 发布会的第二天，理想汽车举行了一场媒体沟通会，在 QA 环节开始之前，按照惯例请出了各个板块的负责人，对 L9 进行了基本的讲解，但是随着讲解的逐渐深入，我发现与其说这是一场「沟通会」不如说这是一场属于理想的硬核「科技日」。

回头看看上台发言的人其实也可以发现一些端倪，刘立国、勾晓菲、郎咸朋的 title 均为副总裁级别，分别负责整车电动、智能空间和智能驾驶并且直接向李想汇报，这是第一次理想汽车的三个核心技术团队负责人共同出现在一场活动。

在此之前理想给人的印象一直是靠精准的定位取胜，在技术上的创新并不突出，在我们重点关注座舱智能化和辅助驾驶方面普遍慢小鹏一步。

但是这场发布会之后，我相信可以改变很多人「理想靠精准定位取胜没技术」的看法，而我们也从这场沟通会看到了理想为未来车内空间交互的思考，以及 ADAS 发展的路径的思考。

理想如何理解车内的空间？

首先值得注意的一个细节是，在理想内部智能空间的研发已经成为了一个独立的一级部门，同时命名为了「智能空间」而非我们常说的智能座舱，这里优先级的变化也可以看出「车内」已经成为了理想新的发力点。

在正式介绍之前我们得对齐一个认知，虽然车的属性是一个交通工具，用途是把我们从 A 点带到 B 点，但是车舱也是一个「空间」，你可以认为这是一个带小空间的交通工具，我也可以说这是一个可以移动的空间。

在电动车出现之前，车更多被定义为「有空间的交通工具」，电动车出现之后，车更像是「可以移动的空间」。

第6个科技工作者日主题（一场属于理想的）(2)

前者工具的属性更多，后者空间的概念更大。

每一个人都希望车里的空间是更大更舒适的，这也是为什么国人都喜欢 SUV，轿车都带 L 的原因，而在更高端的车型上，例如奔驰 S 宝马 7 系都把后排座椅越做越舒服，甚至可以在车里实现半躺的坐姿。

第6个科技工作者日主题（一场属于理想的）(3)

但是燃油车车内的电力不够充沛，12V 的小电瓶只能支撑短时间的基础需求，如果希望有空调、音响同时工作并长时间待在车里，则需发动机长时间启动，持续用油发电供应给车内，在行驶过程中这没有任何问题，但是在停车状态下，这不仅不环保，怠速下的燃油消耗也导致每多在车里待一分钟都有着高昂的成本。

在这种背景下，就没有人愿意待在车里，车的定义就是一个交通工具，和房子的界限十分清晰，因此所有车企的研发方向也是尽量保证车辆在行驶过程中的舒适性，不会考虑车辆静止状态的功能和舒适性。

但是当车辆的能源形式变为电动且自带一块超大的储能电池之后，你的车舱理论上和你的家是一样的，都有着充沛的电力供应，所以车舱就成了一个为数不多私密、独立的空间。

理论上你想在家里干的事儿在车里也可以干，唯一的区别就装修布置不同和空间是否允许。

我们也可以看到小鹏在 P5 上已经开始尝试将拓展车辆静止状态的功能和舒适性，增加了冰箱、气垫床、投影等等。

小鹏的尝试非常大胆，在我看来思路也没有任何问题，但是结果是这波操作并没有被太多人接受。

究其原因并不是大家没有在车里看电影的需求，而是在车里看电影的便利性和体验有没有超过在家里，同时还要舍弃车辆本身的功能性。

例如每次打开气垫床再收起气垫床、架起投影再收起投影的时间已经够打一局王者荣耀了，再例如收起后的气垫床几乎会占后备箱近半的空间。

所以想要有一个良好的车内体验首先要做到的是一个舒服的空间。

如何让车内的空间变得更舒服？

刘立国总结的 2 点是「空间更大」和「坐着舒服」，这两点在我们日常生活中其实处处可见，高铁二等舱和商务舱最大的区别就是空间更大，座椅更舒服，飞机商务舱和头等舱的区别亦是如此。

为了让空间更大，刘立国团队并没有一味增加车身尺寸，而是提高整车的空间的利用率。

在整车研发中车身的每一段都有自己的代号，其中 L103 是整车长度，L10 是机械空间长度，乘员空间是 L1。在 L9 上乘员空间（L1/L103）是 66.33%。

第6个科技工作者日主题（一场属于理想的）(4)

实际的空间体验上，L9 在第二排有 2 拳腿部空间的情况下，第三排还有 3 指的空间，均超过了宝马 X7 的顶腿和 GLS 的坐不下。

第6个科技工作者日主题（一场属于理想的）(5)

第6个科技工作者日主题（一场属于理想的）(6)

第6个科技工作者日主题（一场属于理想的）(7)

为了让坐着更舒服，刘立国团队根据中国标准委员会最新的人体尺寸标准独创研究了中国的人体标准，在座椅的造型和材料的选择上都更有针对性，所以在 L9 上座椅的舒适性饱受好评，甚至还有人给出了 L9 第三排舒适性超过特斯拉 Model 3 第二排的评价。

第6个科技工作者日主题（一场属于理想的）(8)

大家愿意待在车里的基础上，下一步就是让这个空间变得更好用，也就是大家口中的「智能」。

如何让车内空间变得更好用？

在此之前，我一直很期待电动汽车，在座舱在智驾方面体验到一些新鲜玩意儿，因为在我的观念里，没有组织限制的新势力，可以大胆创新，从而让座舱有一些颠覆性的体验。

但是在 21 年带着这个预期看了很多新车，总是以失败告终。最近我在理想 L9 上又感受到了体验的颠覆。

但是仔细想想，理想有什么巨大的创新吗？除了增加了 3DToF 有了手势控制，还有啥？貌似没有了。

那理想做了啥？就是把一些我们觉得很基础的体验从 60 分做到了 90 分。更大的空间、更舒服的座椅、更好的屏幕、更好的音响……

基于这些细节的量变，座舱的体验发生了质变。

而这个过程也和 iPhone 发展的历程无比相似，从 iPhone 4 到现在的 iPhone 13 我们经历了什么？

第6个科技工作者日主题（一场属于理想的）(9)

芯片技术的迭代、摄像头的迭代、屏幕的迭代、电池的迭代、网速的迭代、软件能力的迭代。正是这些底层技术的一点一点迭代，才有体验和功能的量变到质变。

为什么我们的思路是提高芯片的算力？为什么我们的思路是不断提升网速？为什么要增加新的硬件？现在回头想这些都是理所当然的，但正是研发人员在产品立项之初就有了对未来的思考，才保证了产品最终的发展没有跑偏。

虽然我们很难在现在去预测车内空间的终局是什么，就像即使是 2022 年了，我们也很难说手机的终局就是现在的样子，但是发展的思路是可以明确的。

想让座舱的能力变得更加强大，车就必须知道更多的信息，所以车机获取信息的方式就尤为关键了。

面对这个问题，小鹏首创了全场景语音，在思路上不再把语音当做一个工具，而是一个交互方式，在这种思路的驱使下的语音助手，能力范围和交互效率相比之前有了质的变化。

这里的核心说白了就是通过提升车辆获取信息的能力，来降低了人发出指令的成本。

在 L9 上理想首次提出了「三维空间交互」概念。

第6个科技工作者日主题（一场属于理想的）(10)

在沟通会上勾晓菲分享了一组数据，在人的 5 个感官中，获取信息量最大的是视觉，达到了 83%，而最少的是触觉和味觉，仅有 1%。

第6个科技工作者日主题（一场属于理想的）(11)

但是在我们常规使用的电子产品上，例如手机电脑，从这些产品的视角出发，它们获取信息的方式只有来自触控屏幕和触控板的「触觉」。

哪怕现在大多数设备增加了语音助手，具备了听觉的感知能力，能获取到的信息也不过是 12%。这就导致系统能做的事儿，完全取决于你能够通过触控和语音输出多少。

在勾晓菲看来，汽车座舱内的交互方式仍然处于向传统消费电子成熟交互技术的借鉴和学习的状态，比如早期的鼠标及触控板、中期的触控和现阶段的语音。

第6个科技工作者日主题（一场属于理想的）(12)

第6个科技工作者日主题（一场属于理想的）(13)

但是汽车座舱和消费类电子最大区别在座舱是一个三维终端，而我们始终在以消费电子二维终端的方式进行交互，这里的错配直接限制了座舱这个三维终端的想象空间。

而二维到三维，增加一个维度之后，最直观的感觉就是，当一个人向你走来的时候，二维世界只是简单的图像变大了，而三维世界不仅会有明确的距离感，同时我们听到的声音也会更大，在这其中其实包含着大量的信息。

回到 L9 上，所谓「三维空间交互」表面来看只是在前排加入了一个 IR 红外摄像头，在后排增加了一个 3DToF 传感器，功能上目前只实现了手势对后排屏幕的控制，以及结合语音实现了「打开这个」的功能。

（注：当手指向车窗或者遮阳帘时，语音下达「打开这个」的指令，可以打开对应的车窗。）

第6个科技工作者日主题（一场属于理想的）(14)

虽然手势控制后排还算不上好用，习惯了物理按键和语音的我也并不觉得「打开这个」有多大价值。

但是这并不妨碍我认为这是一个非常有想象力的交互方式。

当车辆具备视觉能力（IR 摄像头、3DToF 传感器）之后，配合语音和触控，获取的信息量可以达到 95%，这意味着相比电脑机器对物理世界的感知和理解将会有 100 倍的差异。

回头再来看看「打开这个」功能，虽然对于熟悉了触控和语音的我们很难察觉到这个功能的价值，但是从信息传达的维度来看，车舱已经开始主动迎合理解你的意图了。

放到一个婴儿身上，在此之前，如果你想吃桌子上的苹果，你只能自己去拿（触控打开），或者通过讲话明确表达出你的意思让妈妈帮你拿（语音控制），但是现在你只需要用手指一指（手势控制）说个「这个」，你就能吃到。

所以从这个维度来看，理想的思路是对的，接下来需要做的就是进一步提升车辆的感知能力，说白了优化 IR 和 ToF 传感器的感知能力和麦克风的拾音能力，捕捉更多的视觉（深度）信息和听觉信息。

在这方面，则需要强大的 AI 训练能力，在 QA 环节中，李想透露理想汽车一共有 4 只 AI 团队，最大的服务于郎咸朋的自动驾驶部门，第二大的服务于勾晓菲的智能空间团队。

但是想要做到实打实的获取 95% 的信息，需要系统具备更强的理解能力。

触控交互最大的优势就是，所有指令都是明确的，但是随着全场景语音、模糊指令和手势控制的加入，对系统的理解能力需求也上升了一个维度。

理想的解决思路是建立认知图谱，勾晓菲在沟通会透露，理想同学会有 3 个阶段：

第一阶段强智能（2023Q2)
第二阶段认知推理（2024Q4）
第三阶段人格化（2025Q4）

第6个科技工作者日主题（一场属于理想的）(15)

第6个科技工作者日主题（一场属于理想的）(16)

在第一阶段勾晓菲团队会给理想同学喂更多的知识，在车辆交付阶段会构建所有的用车知识，也就是说有任何关于车的问题都可以通过理想同学解决。

在第二阶段，通过数据的积累理想同学会具备自己的思考能力，能够完成逻辑推理，同时会进入到一个自学习的阶段，也就是说它不再需要别人教它，只要能联网，它会去网上搜索相关的文献，然后通过文献的文本内容自己学习相关的知识。

在第三阶段理想同学会更加人格化，在说话的方式，语气、语速，会和使用者的风格越来越像。

这就是理想同学在「理解」层面的能力规划，最后就是「表达」。

在表达方面，理想也迎合了人类获取信息量最大的 2 个方式，视觉方面通过 4 屏 HUD，听觉方面通过 7.3.4 的扬声器。

第6个科技工作者日主题（一场属于理想的）(17)

不过具备了后排屏幕之后，理想同学出现的位置也会随着唤醒位置的区别出现在不同的屏幕上，以此来提供一个更强的空间感，听觉方面具备了 7.3.4 的音箱之后，也可以做到哪里需要声音，声音去哪里，同样具备更强的空间感。

从这个维度来看，随着技术的推进，未来也不排除在理想的车内座舱出现全息投影的可能。

理想在智能驾驶上反击开幕

如果让你说现在已知的辅助驾驶最强的 2 家公司，大家第一个想到的不是小鹏就是华为。

在 2021 年蔚来 ET7 的发布会上，蔚来宣布正式转向全栈自研，同时在新车上堆满了目前市面上最强的辅助驾驶传感器，这也让大众看到了蔚来自动驾驶上的决心。

而理想虽然基于供应商方案的 2020 款理想 ONE 基础表现能力不弱，但是因为缺少后向雷达，在更高阶的功能上没有任何想象空间，这也让理想不得不在 21 款改款车型上换装了新的摄像头并增加了 5 颗毫米波雷达。

但是即使是 21 年推出的改款车型，能力也仅仅是追平了蔚来 18 年量产的车型，不及小鹏 20 年推出的产品。

虽然，在当下辅助驾驶能力还不足以影响大多数人的购车决策，但是理想汽车透露出来对辅助驾驶的热情是最低的。

这里既有主观的规划失策，也有客观的资金问题。

据媒体报道，在 2018 年底理想汽车的账上只剩下 10 亿现金，这样的环境下理想 ONE 只能选择更具性价比的供应商方案。

不过在 20 年理想汽车美股上市融资之后，局面开始出现了改观，21 年理想决定正式开始自研之路。

辅助驾驶发展的目标相比座舱会清晰很多，简单来说就是功能覆盖更广的使用范围，以及驾驶员更少的精力介入。但是在这个大目标下，大家实现的技术路径各有不同。

理想在自动驾驶上的研发思路可以提炼出 3 个重点：具有高能力上限和安全底线的算法能力、庞大且有效的数据样本、闭环的开发流程，这三者相辅相成。

具有高能力上限和安全底线的算法能力

这里我们先从理想 L9 的辅助驾驶硬件看起：

7 颗辅助驾驶感知摄像头（6 颗 800 万像素，1 颗后视 200 万像素）
4 颗 360° 环视摄像头
1 颗激光雷达
1 颗前向毫米波雷达
2 颗英伟达 Orin-X 芯片（508 TOPS 算力）

在这个猛堆传感器数量的大环境下，理想 L9 ADAS 传感器的选择确十分克制，仅在 7 颗环视 ADAS 摄像头的基础上增加了 1 颗激光雷达和 1 颗毫米波雷达。

可以很明显地发现，理想仅在前向增加了毫米波和激光雷达补充感知，提供安全算法冗余，车侧和后方都只采用了视觉感知的方案，在路径上和采用纯视觉的特斯拉趋同。

沟通会上朗咸朋透露，理想也采用了和当前特斯拉一样的 4DBEV 框架模型，这套模型最大优势在于，可以将车辆周身的 7 颗摄像头拼接成完整的画面，并加入时间维度的信息，实现了 4D 的效果。

第6个科技工作者日主题（一场属于理想的）(18)

相比传统的单个相机输出感知结果，BEV 融合后大幅提升了感知获取的信息量。

举个简单的例子，传统的单个相机输出感知结果进行汇总的，类似一辆车里有 7个人，每个人只能看到自己有限的视角和方向的信息，相互之间的信息无法关联，A 看到了一辆车的车头，C 看到一辆车的车位，虽然他们看到的是一辆车，但是反馈给中央的信息中无法体现出是一辆车。

而且对于只在画面中露出一小部分车头情况，对于视觉感知算法而言，很难及时有效地判断出这是一辆车。

但是 BEV 框架下的算法则像是一个有 7 个眼睛的人，同时获得 7 个视角的画面，并直接生成一个上帝视角。

所以大家可以脑补一下，给你 7 个方向覆盖 360° 但没有任何关联的画面的信息让你开车，和给你一个上帝视角的信息让你开车，哪个方便高下立判。

当然想要正在做好，在算法层面也有着极大的挑战。

在这里朗咸朋分享了 5 个部分的自研算法：

BEV 融合 - FUTR3D
目标检测 - DETR3D
目标跟踪 - MUTR3D
行为预测 - DenseTNT
实时建图 - HDMAPNet

这个五个分部分算法均在不同的领域获得不错的成绩，但是在这里我就不展开，重点是这 5 部分算法已经运用到了理想 L9 上，而 L9 也会在交付阶段就开通 NOA 高速导航辅助驾驶。

第6个科技工作者日主题（一场属于理想的）(19)

第6个科技工作者日主题（一场属于理想的）(20)

不过在这 5 部分算法中有 2 点比较独特的地方，首先我们从硬件上可以看出，理想已经取消了 4 个角毫米波雷达，在这个大家狂堆感知硬件彰显实力的大环境下，理想显得有些「扣」，但是和 2020 款上「扣」不太一样的是，在我看来理想是知道了自己要什么。

在沟通会上朗咸朋展示了空旷一侧和有车一侧的毫米波感知结果，并表示：

「从图中看，我们的侧后方有一辆车来快速接近我们，但是在右侧的雷达反射的波上（蓝色的点和绿色的点是两个雷达的信号），很难一眼看出来这个车在哪（因为他有很多的杂波），也不是说他一点好处没有，但是他可能会影响我们最终的融合感知的精度。所以经过全方位的比较，再加上我们对视觉算法（刚才所演示的视觉算法）有非常高的自信，所以说我们就决定取消角毫米波雷达。」

第6个科技工作者日主题（一场属于理想的）(21)

客观来看，在前向感知方面理想并没有强到可以依赖纯视觉的地步，辅助驾驶对前向的感知的范围和颗粒度要求极高，毕竟这是车辆主动的行进方向，取消车头的两个角毫米波雷达，是因为在前向已经有一个 120° 覆盖面的激光雷达了，而取消车尾的两个角毫米波雷达，

而对于后向感知，系统需求的感知的范围和颗粒度更低，在这种情况下，要靠纯视觉就已经可以满足需求了。

另外可以明确的一点是，自动驾驶的感知传感器一定不是越多越好，一方面过多的数据会大大增加计算芯片处理的压力，另一方面同一个方向，3 个传感器反馈信息，但是如果其中一个反馈的结果和另外两个不一样，就像 3 个站岗的人，2 个人说没车，1 个人说有车，那决策系统到底听谁的？

另一点是，理想在 BEV 融合算法中加入了雷达点云特征和高精地图的地图特征，从这一点来看，理想这套辅助驾驶仍然对高精地图有依赖，这也是目前行业的现状。

不过为了摆脱高精地图供应商的桎梏，小鹏、蔚来希望均通过收购或合作的方式，让自己具备了甲级测绘资质，而理想是三家新势力中最早具备乙级测绘资质的，据我了解理想接下来也会具备甲级的测绘资质。

所以理想的自研算法如何，能否后来居上，我们等交付了看疗效。

庞大且有效的数据样本

数据是训练视觉为主自动驾驶算法的基础，越多有效的数据喂养，系统能够解决的极端场景就越多。

朗咸朋在沟通会上非常自信地表示：「我们现在已经有超过 30 亿公里驾驶员的行驶里程，有超过 2.9 亿公里的辅助驾驶里程，和超过 2,462 万公里的 NOA 导航辅助驾驶里程。我们从这些行驶的数据上，提取出了有效的学习场景 1.9 亿公里。最多的是特斯拉超过 10 亿公里，我们是第二位。我们比后面的（像百度还是千万公里的级别）要大一个数量级的。」

第6个科技工作者日主题（一场属于理想的）(22)