东北人、香港中文大学教授汤晓鸥,被业内称作全球人脸识别技术的开拓者和探路人。他一手创立了香港中文大学多媒体实验室(又称mmlab),成为“计算机视觉界的黄埔军校”,国内大部分ai视觉企业与该实验室有渊源。7月6日,在2023世界人工智能大会(waic)开幕式上,这位人脸识别界的军师,谈及他三位大咖学生,开启了另类“凡尔赛”。
汤晓鸥说,2010年,杰弗里·辛顿(geoffrey hinton)、约书亚·本吉奥(yoshua bengio)和杨立昆(yann lecun) ,这三位后来的图灵奖获得者,共同开启了“深度学习”的大门。2011年,杰弗里·辛顿和微软的中国学者邓力,在深度学习语音识别上实现划时代的突破。2012年,杰弗里·辛顿和他的学生又改进了卷积神经网络,并在著名的imagenet评测中将对象识别的错误率减半,计算机视觉领域由此掀起革命。但是,判断两张照片是否为同一人,人眼有97.53%的准确率,这一度被认为是人工智能算法无法超越的天花板。2014年,汤晓鸥团队用原创的gaussianface算法超越人眼,造出一个准确率高达98.52%的“怪物”,随即又发布更逆天的deepid算法,直接把实验成绩提高到99%以上。
凭借汤晓鸥的段位,当然早已无需多言自己的过人之处。但他想聊聊他的学生在深度学习领域做了些什么。
第一位学生名叫王晓刚,本科中科大少年班,硕士期间在汤晓鸥的mmlab,博士就读于麻省理工,2009年从麻省理工回到mmlab做教授。2015年,由王晓刚带队,打败对手谷歌,取得了中国学者在imagenet评测中的第一个世界冠军。
第二位学生何恺明,系2003年广东高考状元,在mmlab读硕期间发表的第一篇文章,就取得了国际顶尖会议cvpr(ieee国际计算机视觉与模式识别会议)的最佳论文。这也是cvpr历史上产自亚洲的第一篇最佳论文。“我当时跟恺明开玩笑,你一出手就到巅峰,以后你的学术生涯就只能往下走了。”但汤晓鸥特别高兴地看到,此后何恺明去了微软研究院和facebook工作,事业仍一路走高。在微软研究院,何恺明把深度学习训练的层级从2015年时的最多三层,拓深到了20多层。他在网络的每一层引入了直联通道,从而解决了深度网络梯度传递的问题。而今,以transformer为核心的大模型,也普遍采用何恺明当年所创设的结构。
“总结起来,何恺明把网络做深了,谷歌把网络的入口拉大了,又深又大,才成就了今天的大模型。”汤晓鸥说。
第三位学生林达华,本科在中科大,硕士在香港中文大学,博士在麻省理工。他2010年在麻省理工读博期间,获得nips(神经信息处理系统大会)最佳学生论文。林达华2014年回到汤晓鸥的mmlab做教授,第一项工作就是将实验室开源,在没有推广投入的情况下,openmmlab纯以口口相传的形式,成为国际上最具影响力的视觉算法开源体系之一,目前用户遍及全球140多个国家和地区,其中60%的用户来自海外。林达华的第二项工作,是推出书生·浦语,这是我国首个千亿参数多语种大语言模型;他第三项工作是推出全球首个城市级实景三维大模型landmark,有2000亿参数,覆盖100平方公里。
“回头看,王晓刚在深度学习兴起的最初几年,撒下了许多原创的种子;何恺明将深度学习的根基打得非常牢和深;林达华通过开源和大模型,让深度学习枝繁叶茂。”汤晓鸥概括。
这些学生,让汤教授不免感慨,“我不是在最好的时光遇见了你们,而是遇见了你们,才有了这段最好的时光。”
刚抒完情,这位“被人工智能耽误的段子手”又不改其幽默本色,他接着说,“这句话非常优美,富有诗意,也发自我的内心,可惜它不是我的原创。这句话,是于谦老师的原创,是他的电影《老师好》中一句经典台词。”
“每天晚上睡觉前,我都是一边听着于谦老师的相声,一边想:这么有趣的灵魂,机器怎么可能超越呢?我不信。”
这位严谨而实事求是的科学家,最终用如此感性的方式,道出了ai可以为人类所用、但难以真正替代人类的真相。
本文作者:李晔