华为公司自2019年以来发起的“天才少年”计划长期受到舆论关注。
澎湃新闻(www.thepaper.cn)记者注意到,华为心声社区7月25日发布的一篇文章《26岁从计算机视觉界“黄埔军校”博士毕业,他想为车打造一双慧眼》介绍了2020年入选华为“天才少年”计划的黄青虬从新员工迅速成长为带领近50人团队leader的故事。
过去的28年,黄青虬的头上总是环绕着很多的光环:从小一路是学霸,以692分、全省40名的成绩考入清华大学自动化系;作为队长,带领清华大学“火神机器人战队”,拿下RoboCup(机器人足球世界杯)的第四名;26岁从被誉为计算机视觉界的“黄埔军校”——香港中文大学多媒体实验室博士毕业,发表十多篇顶级会议论文;2020年入选华为“天才少年”计划,加入智能汽车解决方案BU不到两年,从新员工迅速成长为带领近50人团队的leader。
黄青虬参加机器人足球世界杯。 图片来自华为心声社区
对于自己入选“天才少年”计划的过程,黄青虬介绍:从香港中文大学多媒体实验室博士毕业后,一个偶然的机会,刚成立不久的华为车BU联系上我。经过了几轮面试,我成功拿到了天才少年的offer。当时我非常纠结:到底是去我熟悉的视频分析领域继续深耕,还是转到自动驾驶这个方向上?经过了一番思考,我最终还是决定加入车BU。我觉得,文娱产业虽然也在丰富精神生活上起到非常重要的作用,但远不如智能汽车这样的“硬科技”是国家社会的基石产业。而且汽车产业正处于一个变革时代,就类似于手机从功能机到智能机的演进,而自动驾驶又是这个变革中的核心之一,它极大可能会改变整个人类社会。
“能够入选我很荣幸。后来看到很多相关的热搜,才意识到这是一个自带热度的话题。但我是个实用主义者,我并不会把‘天才少年’当成一个光环或者一个包袱,而是会尽量忘掉它,只在有需要用到的时候把它拿出来,比如需要这个title去吸引应届生的时候,哈哈。就像任总说的,进入华为公司,就没有‘天才少年’这个名词了,也没有博士、学士之分,也没有年轻专家、老专家之分,大家都是在一个起跑线上的,都要踏踏实实做好本职工作。”黄青虬说道。
谈及自己对“计算机视觉”感兴趣的开始,黄青虬回忆:高中的时候看《黑客帝国》《变形金刚》,就被机器人控制人类、机器人和人类战斗这样的场景震撼到了,对机器人产生了浓厚的兴趣。上大学后我成为清华大学“火神机器人战队”的一员,开始捣鼓起了机器人……对人来说,我们习惯了有一双强大的眼睛,“所见即所得”对我们来说是非常自然的事情,但是在计算机系统里,从图像到机器可感知的三维信息,转化过程其实非常复杂。而我要做的就是为机器人打造一双强大的眼睛,这是一件很有挑战但也很酷的事情。
说到自己在计算机视觉界的“黄埔军校”所经历的“魔鬼”训练,一段看了100遍电影《泰坦尼克》的往事让黄青虬记忆犹新。
“我博士期间研究的课题非常有意思,是利用AI技术对电影进行结构化解析,也就是让机器去理解电影,从一部电影中解析出人物关系、故事情节等。因为这个研究课题在计算机视觉研究领域算比较冷门,前人研究很少,一切要从头开始。但我还是决定去试试,因为我觉得电影本身是一种比较艺术、人文的东西,用科技去解析艺术,理性和感性的碰撞也许会有不同的火花。”黄青虬介绍道。
“我和几个小伙伴从零开始,通过电影、剧本、影评各种渠道,收集了学术界第一个、也是当时最大最丰富的电影研究数据集,叫MovieNet,大概有十几万部电影。基于这个数据集,我们做了很多有意思的课题研究,包括演员的识别、精彩片段的自动化剪辑、用文字搜索电影片段等。”黄青虬还介绍道。
黄青虬称,这些课题的研究成果非常具有应用价值,比如演员识别和人物关系识别,就是现在很多视频网站上会看到“只看他”“只看某个CP”功能的核心技术,再比如视频自动剪辑,就可以用到现在很多视频剪辑软件中,帮助用户自动剪辑出短视频。但同时这些课题也是非常挑战的,比如演员的识别,虽然人脸识别已经是一个比较成熟的技术了,但是在一部电影里,一个演员清晰正脸的镜头往往不到30%,更多的场景下,人物的识别都是不能靠脸的,比如打斗的时候人脸是糊的,比如晚上光线非常暗的时候脸常常看不全,比如有时候只能看到背影。我们也是在做的过程中,才看到了这些难点,并且通过引入衣着、环境、人物关系等信息,再加上一个渐进式的推理模型,解决了其中大部分的问题。
“读博的前两年,由于研究方向比较冷门,我的论文投稿频频碰壁,我发出第一篇论文的时间其实晚于实验室的大部分同学。但经历了一轮又一轮反复打磨后,我们最终也慢慢得到了学术界的认可。在整个博士期间,我发表了十多篇顶级会议论文。我还记得每篇论文我们都是用《泰坦尼克》做demo,整个博士期间我把这部电影估计看了100遍以上,台词都快能背下来了。”黄青虬说道。
加入华为之后,黄青虬智能驾驶的视觉感知小组目标就是:通过相机,让车感知周围的物理世界,包括检测路上的车辆、行人,判断他们的运动状态等。此后,黄青虬成为激光感知团队的leader,开始带领团队在这个领域冲锋陷阵。激光雷达作为一个非常新的传感器,虽然能提供更精准的测量,让我们对环境的测量更加精准,但是同时也会带来非常多的问题,就像武侠小说里的绝世武器,想要驾驭好并不容易,只有在内力深厚的人手上才能发挥出巨大的威力。
黄青虬举例:下雨天别的车从你旁边开过,会溅起很多水花,在激光的视角里,它看到的是无数个点,有些会横跨两个车道跑到你的前方,从激光的视角看就会误以为面前有一个巨大的障碍物,需要刹车,但此时,摄像头捕捉的又是另外的画面,在这种情况下,就需要制定很多复杂的规则,什么时候应该相信激光雷达,什么时候应该相信摄像头,这会严重影响自动驾驶在雨天的性能表现。为此,我们设计了前融合算法,把摄像头捕捉到的图像和激光雷达捕捉到的点云,一起输入神经网络去做融合感知,得出更准确的结果。
ADS激光&毫米波感知组深圳团队。
一年以来,黄青虬团队苦练内力,做了一个又一个实验,设计了一版又一版的方案,终于把激光感知算法的性能做到了稳定高效,让激光雷达在自动驾驶系统中发挥出了巨大的威力。伴随着极狐的量产,黄青虬团队终于可以自豪地讲,他们是业界第一个把激光雷达以传感器的身份,而不是装饰品的身份,安装到一台量产乘用车上的团队。
对于下一步的目标,黄青虬透露:一方面,他们会持续打磨现在的激光感知和毫米波感知算法,去解决大规模商用之后客户遇到的各种问题,目标是让客户体验不断提升,让客户越来越喜欢用他们的自动驾驶功能。另一方面,在经过几年的迭代之后,他们当前的感知系统也走到了一个瓶颈期,遇到了一些系统性的难题。比如当前系统的时延还是偏高。所谓时延,就是指从传感器接收到数据到车做出决策的时间差,类似于人的反应时间,是越短越好。所以他们也正在开发下一代感知系统,希望解决之前遇到的很多系统性问题。