自动驾驶中的激光雷达vs单目深度vs双目深度 -

自动驾驶中的激光雷达vs单目深度vs双目深度

by OAK中国
in 其他
on 2022年6月10日

来源：Luxonis
作者：Brandon（Luxonis CEO）

自动驾驶靠什么赢得长久？特斯拉？Waymo？

注：Waymo是一家研发自动驾驶汽车的公司，为Alphabet公司旗下的子公司。

在这个问题上，我的观点基本上没有得到业界的支持。行业往往分为两个阵营：

激光雷达。“从来没有人因为买激光雷达而被解雇。”Waymo营地
单目深度。”激光雷达是一个拐杖，解决视觉问题才是真正重要的。”特斯拉营地。

而我实际上赞同秘密选项3，它说2大部分是正确的，只是忘记了更多的信息是如此有价值，3是一个拐杖，一旦我们有了成熟的AI/CV，就不够了。

为什么2大部分是正确的：

解决视觉是一切价值所在，那才是真正的背景所在。这就是补充性的货币化数据所在（例如，很难从激光雷达数据中发现儿童贩子）。

对于单目深度，信息从根本上来说是缺失的。因此，为了弥补丢失的信息，使用时域来代替。这使得单目深度更慢，性能更差，延迟更长，并且有根本不起作用的严重情况。其思想是，由于缺少对象的替代视图（其为神经网络提供了了解深度所必需的信息），相似场景和/或时域的先验知识被用于给出替代视图。但是在某些情况下，时域没有必要的信息，或者它将导致更差的深度或糟糕的延迟。

为什么1在打长局的时候会分心：

捷径是赢得短局的好办法，激光雷达就是一种捷径。在2006年的大学里，有一个机器人比赛，你必须通过一个迷宫，在这样做的同时避开障碍，捡起一个物体，然后重复所有这些，让它回到机器人开始的地方。和我竞争的人比我聪明得多，经验丰富得多。

我知道我无法与这些人竞争，正常的导航规划要求远远超过了我的能力。所以我找了一种捷径，使我跳过它，我试验了一下电机编码器的精确度。由于这是一个受控/室内环境，它们被证明是超级准确的。经过调整和一些试误，以了解他们何时出现问题，以及有多少问题，我和我的团队能够从字面上解决整个问题的硬编码。我们真的硬编码了所有需要的步骤，而电机控制器/编码器/轮子/手臂等都足以做到这一点。

所以我们的机器人看起来棒极了，第一次尝试就完成了所有的事情，完成了每一个挑战（你每通过一件事都会得到积分，如果没有人完成整个事情，就可以进行加时赛），相比之下，最好的竞争对手最多只能得到50%的解决方案。

现在这很酷，我们赢了，有奖品什么的——但是这一点用都没有。这是快速做出令人印象深刻的东西的捷径。那是一根拐杖。如果你想在此基础上发展，那是不可能的。你不得不重新开始。

我也是这样看待激光雷达的。因为你可以在短距离和长时间内获得精确的稀疏点测量，所以你可以轻松、快速地制造出在许多条件下都能很好行驶的东西。就像硬编码一样。问题是激光雷达与CV相比是稀疏的。它给出了足够的信息来“演示”。但是，当你从赢得这场看起来更远、更快的短期比赛（就像我对硬编码所做的那样），到实际尝试制作一个对世界有意义、可扩展的全面生产解决方案时，激光雷达没有必要的信息，但视觉有。

不要误会我的意思，CV +激光雷达非常适合超级安全关键的东西。但是CV才是真正的价值所在。激光雷达则是一个傻瓜式的硬停止备用系统，就像大多数升降机关键系统都有这些。

但是激光雷达备份系统仍然缺少很多信息。所以最终我认为冗余的CV系统会胜出。因为这样你就有2个系统，有足够的信息去“真正理解”。

这又引出了另一个问题：任何想要“认真对待”基于激光雷达的解决方案也需要CV，因为激光雷达没有足够的信息。因此，最终，大量使用激光雷达的团队不得不解决CV以赢得扩大规模。

然后从长期来看，忽略投资者的眼光、要求有进展等等。就技术层面而言，激光雷达实际上是一种干扰——因为没有CV，激光雷达解决方案就无法真正稳定运行。所以投入的时间越多，解决CV的时间就越少。

也就是说，试图让投资者惊叹的自动驾驶初创公司，激光雷达绝对是正确的选择。就像那次机器人比赛一样，使用快捷方式产生了巨大的轰动效应。这对于结束融资非常有用。这只是分散了技术堆栈开发的注意力。但如果你因此完成了一轮10亿美元的融资——这就是建立正确的技术堆栈的原因。

这就是为什么我现在认为，对于任何处于初创的自动驾驶公司来说，激光雷达都是正确的选择。但他们需要着眼于长远，通过使用激光雷达来推动他们转向CV。

注意，以上是纯粹地分析75英里/小时以上的自动驾驶移动中的人（例如，特斯拉，Waymo等）。对于自主移动机器人(AMRs叉车、送餐等。)还有类似的交易，但视觉变得更加“不费吹灰之力”，因为在人的移动中，速度是75英里/小时以上，这需要350米以上的深度视觉，这在DepthAI和OAK之前是 “困难的”。而对于自主移动机器人(通常< < 75英里/小时)，深度感知需求“并不难”。所以激光雷达对于这种AMRs来说是一个更糟糕的选择。因为向视觉的过渡会更早发生，因此投资激光雷达的风险/失败概率明显更高，并且“惊喜因素”基本上不存在，相反，基于DepthAI/OAK的视觉在这种平台上具有疯狂的“惊喜因素”能力，这几乎不可能用激光雷达实现。当考虑到AMR时，尤其不可能，成本更敏感，因此使用的激光雷达必须更稀疏，性能甚至比视觉更差。

如果有人阅读这篇文章，很可能会指出“激光雷达并不稀疏”，然后(我)回应说，你可以用不到900美元的价格构建一个360立体深度CV解决方案，具有3680万个深度点和300多米的范围。实际上，你可以不用激光雷达来建造它。没有一家公司可以这样做，任何接近的东西都是$100,000。

因此，视觉不仅能提供长期价值，还能大幅降低成本。

自动驾驶中的激光雷达vs单目深度vs双目深度

自动驾驶中的激光雷达vs单目深度vs双目深度

近期文章

分类

标签

产品

教程

开源资源

解决方案

关注我们

技术支持