车东西(公众号:chedongxi)
作者 | Juice
编辑 | 晓寒
特斯拉的人形机器人来了,成本不到2万美元(约合人民币14万元),最快3年内或许就能买到。
就在今天,特斯拉又一次举办了AI DAY活动,仍然发挥了延迟开始的传统艺能。与往常马斯克主讲的模式不同,在本次AI DAY上,马斯克穿着“撞衫”老黄的皮夹克简短介绍了此次重点展示的机器人Optimus(与变形金刚(参数丨图片)里的擎天柱重名),之后都是各个业务负责人进行的讲解。
特斯拉机器人团队在过去一年内几乎每周都工作了7天,并且每天工作十几个小时,终于在今年展示出了原型机。
在活动一开始,一个周身没有任何伪装的机器人缓缓走上舞台,完成了行走、转向、挥手等动作,从特斯拉展示的视频来看,特斯拉Optimus还可以完成运输物品,浇花等行为。
去年AI Day上,擎天柱还只是一个概念图。现在仅仅过了一年,特斯拉就拿出来了一个能够行走和进行多种行为的原型产品,不得不说特斯拉的技术团队是真的很强。
▲特斯拉Optimus出场
对于这一产品,马斯克非常看重,认为其价值将会比汽车、自动驾驶更加重要。他认为特斯拉将会在未来生产数百万台机器人,成本低于2万美元(约合人民币14万元),未来3~5年就能购买到。
而在自动驾驶方面,特斯拉一直在完善自己的技术和产品,目前FSD Beta版本已经有16万名用户在使用,而今年底就将会具备全球推广的能力。
此外,特斯拉自研了Dojo超算平台,目前这一产品也正在帮助特斯拉在自动驾驶、机器人等方面取得更多成绩。
整场发布会下来,特斯拉的多位工程师对特斯拉在Optimus、FSD、Dojo等方面进行了详细的软硬件介绍,但几乎在每个产品介绍的时候,特斯拉都聊到了希望更多的AI、硬件等人才可以加入特斯拉来做出更多有意义的产品。
也就是说,为了招聘合适的人才,特斯拉特意举办了一场发布会。
不过从这场发布来看,特斯拉已经不仅仅是一家电动汽车公司了,在人形机器人、自动驾驶和超算等方面已经进行了很深的布局,正在成为全家非常硬核的科技公司。
一、Optimus原型机亮相 成本不超2万美元
在发布会开始,马斯克就展示了特斯拉制作的机器人Optimus原型,从直播上来看,率先亮相机器人造型确实很原型,周身直接裸露着电线,没有做任何装饰。
机器人可以独立完成行走,向用户挥手致意,甚至跳舞等内容。
▲特斯拉Optimus可以跳舞
马斯克表示,Optimus其实可以做更多事情,受限于舞台只能展示这些。从现场展示的视频来看,Optimus除了可以四处走动之外,还能完成运输物品,浇花等行为。
▲特斯拉Optimus可以运输东西
在工厂里,机器人能将一个长条状的物体从工作台拿下来,再整齐排放至装有相同物体的盒子中。在机器人视角的渲染图中,它能够用颜色区分开现实世界中的不同物体。如它手持的长条形物体是紫色、工作台是黄色等。
▲特斯拉Optimus搬运工厂货物
随后,特斯拉推了一个更接近真人的版本的Optimus,看上去和去年AI DAY上展示的模型有点类似,具备类似人类的外观,自由度也更高一点。
在使用过程中也可以提供更多服务,如手指可以自由移动,可以操作很多工具,右手可以拿一些工具,甚至在工厂做一些重复的工作等。
▲特斯拉Optimus
不过,马斯克表示,在过去的一年中,机器人团队一周工作7天,每天工作十几小时,虽然特斯拉已经做了很多工作,但这个机器人目前还处在早期阶段未来还可以将其做的更好。
按照介绍,完全体的特斯拉人形机器人“擎天柱”体重73kg,用电功率在静坐时为100W,快走时500W,全身有200多个自由度,手部27个自由度。
马斯克对这一产品的成本等信息进行了剧透,他认为目前可以在市面上看到一些其他的机器人,但成本非常高,特斯拉的Optimus可以低成本生产,预计未来产量可以达到数百万台,而成本或许会低于2万美元(约合人民币14万元)。
对于这一产品,马斯克显然非常看好,他表示,机器人可以降低劳动成本,更好的发展经济,未来将没有贫穷,人类可以自由选择工作类型,体力活将不再是人类必须选择的,人类可以更多的参与脑力工作。
虽然自动驾驶汽车非常重要,可以将运输能力可以提升一个数量级,带来革命性的变化。但机器人可以降低经济成本,让社会发展更有动力。马斯克希望机器人可以更加安全的为人类带来更多帮助。
▲特斯拉Optimus
而在现场,马斯克也不忘了给自己打广告:“我们举办这个活动的目的就是为了吸引更多的AI人才加入我们,做出更好的产品。”
在马斯克做完简单的介绍之后,特斯拉的设计团队对Optimus的设计进行了一些介绍。
特斯拉一位机器人负责人介绍了一些机器人的具体进展,在去年的AI DAY上,特斯拉简单介绍了特斯拉的机器人,到目前已经进行了三次演进,最终呈现出现在的结果。
Optimus采用的核心传感器为摄像头,和特斯拉FSD系统中采用的摄像机类似。目前特斯拉收集了很多数据来训练机器人。
特斯拉Optimus的电力系统集成到了上半部分,之所以这么设计则是考虑了特斯拉汽车的设计方案,希望减少更多的线束,将配电和计算集中在躯干中心。其中包含一块电池组,容量为2.3kWh,充一次电后可以运行一整天。
▲特斯拉Optimus核心零部件展示
特斯拉机器人使用了单颗特斯拉自研SoC芯片,支持LTE 4G连接,但和汽车所采用的不一样,机器人需要处理视觉数据做出迅速反应、基于多种感官输入和通讯,因此装有无线电连接、音频支持以及需要保护机器人本体和人类的安全特性。
在行动方面,特斯拉的擎天柱依然吸取了特斯拉电动车的动力系统。设计的时候,特斯拉先分析了机器人需要进行哪些行动,包括行走、上下楼等。首先通过对机器人行走的动态数据进行分析,然后就能够分析出这些移动需要的时间、能耗和轨迹,根据这些数据就能设计出关节和执行器。
安全性方面,特斯拉也做了一些设计。为了保护机器人,研发人员对其结构基础进行了优化,在人形机器人摔倒时不会把变速器和胳膊弄坏,就可以将这一技术应用到机器人之上。毕竟一台机器人的维修成本很高。
▲特斯拉Optimus可自我保护
研发人员采用了与汽车相同的底层技术,让机器人在所有组件中产生压力,使得其行走控制变得更加容易,也不会那么僵硬。
▲特斯拉Optimus行走姿态模拟
以膝盖为例,人形机器人在设计时需要仿照人类真实的膝盖结构。
▲特斯拉Optimus模拟了人类骨骼结构
研发人员将人类的膝盖和其运动过程中所受的力线性化,从而学习如何让机器人膝盖使用更少的力来构建,让其能实现更好的力度控制,并让相关结构紧密的包裹在膝盖周围。
执行器共有6种,包括电机、类似重量秤一样的牵引执行器等。特斯拉在现场也展示了一段视频,可以通过牵引执行器吊起一台钢琴。
▲特斯拉Optimus牵引执行器可以吊起一台钢琴
人形机器人的另外一个重点就是手部。特斯拉希望擎天柱的手部也能跟人类一样灵活,能够抓住物体,进行操作,并且拥有传感器进行感知。
设计擎天柱的手部时同样从生物学生吸取灵感。通过6个执行器,让擎天柱的手可以实现11个自由度的移动,并且可以拿动20磅的重量,并且可以操作一些器械,或者抓取小型物体。
特斯拉的技术专家在现场讲到,汽车就是轮式机器人,擎天柱某种程度上只是把汽车立起来了。
在机器人的行动方面,擎天柱使用特斯拉电动车同样的神经网络——“占用网络”来识别可行驶区域。
▲特斯拉Optimus采用占用网络识别
在行走方面,软件在感知和分析外部环境后,会画出行驶轨迹,然后根据轨迹规划出每个脚的落脚点,然后再让执行器执行。
人形机器人的一个重点就是保持直立状态,不能轻易就倒地。如何做到?通过传感器和对外界的情况进行感知,当受到外部影响的时候能够自行调节控制器的扭矩并最终让它保持平衡。
抓取方面,特斯拉先通过对人的抓取行为的动作进行轨迹数据采集,然后再映射到机器人身上,从而让它能够进行一些抓取动作。
▲特斯拉Optimus通过真人动作抓取来模拟动作
未来,特斯拉希望让擎天柱变得更加灵活,希望从原型机能够走的更远,让它在各方面都进行改善,拥有更好的导航、行动能力等。
二、发力自动驾驶 年底具备全球推出FSD能力
自动驾驶方面,特斯拉首先介绍了FSD的情况。2021年,FSD测试有2000客户参加。2022年扩展到了16万客户。特斯拉目前积累了480万段数据,训练了7.5万个神经网络,并在此基础上推出了35个FSD的版本更新。
自动驾驶技术架构方面,特斯拉的做法是先用自动化的数据标注系统对收集的数据进行自动标注,然后对数据进行处理后,来训练神经网络,然后将AI模型部署到FSD计算机中,通过计算来算出对外部环境的感知结果并算出本车的行驶规矩。
技术展示方面,特斯拉首先展示了一下无保护左转能力。比如在左转的时候有行人和其他车辆,特斯拉在考虑到不同交通参与者的行驶轨迹后,算出了最合适的行驶轨迹。
▲特斯拉FSD系统应对无保护左转
具体呢,特斯拉使用了一个名为交互搜索的技术。
首先从视觉感知开始,去感知交通参与者,然后去推测他们的行驶轨迹,然后生成几种策略,最后再选择出最佳的行驶轨迹。
▲特斯拉交互搜索技术架构
这里需要注意,外部目标如果越来越多,需要的计算量也会越来越大。
特斯拉通过环视摄像头来对外界进行感知,生成3D环境,并通过占用网络来找到可行驶区域,并知道哪些是障碍物。
工作时候,第一步是先对摄像头的图像进行校准,把图像整合在一起就形成了3D空间,将数据进行提取,输入到神经网络里,通过相应的算法就构建空间特征。
▲基于视觉数据构建3D空间
这里有个问题,仅仅生成了3D空间后,没有各种物体的精确位置,依然无法进行路径规划。所以特斯拉的做法是通过对关键特征进行分析来算出位置数据。
特斯拉的车队在日常行驶中积累了很多视频片段。每个视频有何多帧图像,需要14亿帧才能训练一个神经网络,需要使用10万个GPU工时(1个GPU工作1小时),训练量很大。
这里就需要使用超级计算机和AI加速器。这也是特斯拉为啥自己搞了Dojo超算的原因,能够提升30%的网络训练速度。
其他交通参与者的行为预测方面,特斯拉也介绍了一下自己的做法。
摄像头的画面会先进入到RegNet网络,处理之后的数据再进入Transformer模型之中。可能有10亿个参数,对他们进行共同的优化。想要实现的是最大程度实现算力,尽量减少延迟。
汽车在运行过程中将会产生大量的数据,而这些数据也需要进行标注。
在进行标注的时候,特斯拉最先尝试了手工标注,但费时费力,之后有考虑过供应商合作的方式,但从最终的结果来看,无论是时效性还是质量都不是很好,而特斯拉需要非常高效且具备可扩展性的标注。
目前特斯拉采用的人机合作的标准方式,既有人类标注,也有机器标注,但整体而言,机器标注的效率更好,机器30分钟的工作量,人类可能需要更长时间,因此特斯拉正在构建自动标注系统。
▲特斯拉基于自动标注的数据训练模型
通过高效率的标注,让现实世界中的时空片段转化为可以使用的数据,从而让FSD更加智能和高效。
及时自动标注也需要进行梳理,之前特斯拉方面并没有投入太多精力在这方面,而现在已经有很多工程师在做这方面的工作。
此外,在自动驾驶中,非常重要的一部分就是仿真系统,这可以提升车辆对于长尾场景的应对能力。
特斯拉建立一个场景生成器,最快在五分钟内就可以生成一个场景,速度提升了1000倍,还可以扫描现实物体投射到屏幕上,可以模拟信号灯、停车标志等,尽可能接近真实世界。
▲特斯拉的场景生成器
这对于训练来说,意义非常重大。
而通过数据引擎,可以让神经网络更加真实,能够带来更多的确定性,去解决现实世界的不确定性。如在路口转弯时,要判断横停的车辆究竟是停车状态还是缓慢行驶,只用创建更多的网络进行评估,就能解决这样的场景。
目前特斯拉的数据集,一部分来自车队传回的信息,另一部分来自模拟数据,都可以更方便的对场景做出判断。
而对于特斯拉FSD Beat的推广情况,特斯拉今年年底将具备在全球推出FSD的能力。但北美之外,需要跟监管方进行沟通,而在有些国家和地区,监管还很滞后。
三、Dojo不断迭代 正促进特斯拉发展
在之前关于机器人和自动驾驶的介绍中,特斯拉工程师已经多次提到了Dojo超算平台。
在去年的首届特斯拉AI Day上,特斯拉展示了其首款AI训练芯片Dojo D1,以及基于该芯片构建的完整Dojo集群ExaPOD,用于执行AI训练任务,为其上路车辆庞大的视频处理需求提供支撑。
当前特斯拉已经拥有基于英伟达GPU的大型超算,以及一个存储30PB视频素材的数据中心。
特斯拉还展示了一组过去两年间从交付定制冷液分配单元(CDU)到安装第一台集成Dojo机柜、再到2.2MW机组负载测试的照片。
▲特斯拉研发Dojo超算的关键节点
特斯拉一直试图优化Dojo设计的可扩展性,并以“快速试错”的心态来克服挑战。Dojo加速器具有单个可扩展计算平面、全局寻址快速存储器和统一的高带宽+低延迟。
特斯拉技术工程师特别谈到电压调节模块,它具有高性能、高密度(0.86A/mm²)、复杂集成性。
▲电压调节模块
其电压调节模块在24个月内更新了14个版本。
热膨胀系数(CTE)很重要,因此特斯拉与供应商合作提供电力解决方案。其CTE降低了50%以上,Dojo的性能是初始扩展的3倍。
会上,Dojo团队展示了通过Dojo实现Stable Diffusion在火星上运行Cybertruck的图像。
据介绍,只用4个Dojo机柜就能取代由4000个GPU组成的72个GPU机架。Dojo能将通常需要几个月的工作减少到了1周。
此外,特斯拉自研的D1芯片也发挥了作用。D1采用台积电7nm制程工艺,在645mm²的面积上塞了500亿颗晶体管,BF16、CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS,TDP(热设计功耗)为400W。
基于D1芯片,特斯拉推出晶圆上系统级方案,通过应用台积电InFO_SoW封装技术,将所有25颗D1裸片都集成到一个训练Tile上,每个Dojo训练Tile消耗15kW。特斯拉Dojo训练Tile中有计算、I/O、功率和液冷模块。
▲Dojo超算的Tarining Tile模块
Dojo System Tray有高速连接、密集集成等特性,75mm高度能支持135kg。其BF16/CFP8峰值算力可达到54TFLOPS,功耗100+kW。
Dojo接口处理器是一个具有高带宽内存的PCIe卡,利用特斯拉自家TTP接口。
特斯拉传输协议TTP还可以桥接到标准以太网,TTPOE可将标准以太网转换至Z平面拓扑,拥有高Z平面拓扑连接性。
自去年特斯拉AI Day至今,Dojo开发迎来了一系列里程碑,包括安装第一个Dojo机柜、进行2.2mW负载测试等,现在特斯拉正以每天打造一个Tile的速度推进工作。
▲Dojo超算机柜
特斯拉还宣布其第一个ExaPOD预计将在2023年第一季度完工,计划在帕洛阿尔托总建造7台ExaPOD。
据介绍,在10机柜系统中,Dojo ExaPOD集群将突破E级算力。
其BF16/CFP8峰值算力达到1.1EFLOPS(百亿亿次浮点运算),并拥有1.3TB高速SRAM和13TB高带宽DRAM。
结语:特斯拉不仅是一家汽车公司
在很多普通公众印象中,特斯拉是全球电动汽车的领头羊,是世界上首个将电动汽车大规模推广起来的公司,也是一家伟大的汽车公司。
但在特斯拉自己看来,汽车公司并不是其给自己的最终定位,特斯拉将自己能定位为一家非常硬核的科技公司。所以特斯拉在自动驾驶、AI、机器人,甚至超算方面发力,并且还都做出了一定的成果。
而为了实现这些成绩,特斯拉内部也进行了非常多的努力,充分尊重有才华的员工,共同打造有价值的产品。