大模型人才高度稀缺,“选择”比“培养”更重要|对话昆仑万维
近期,“百模大战”愈演愈烈。在大模型热潮中,“人才”成为各大科技公司、创业团队和研究机构激烈争夺的焦点。然而,目前AIGC领域的尖端人才,仍存在较大缺口。
到底招募什么类型人才,有利于模型研发?
去哪里招募大模型人才?
如何培养大模型研发人才?
图源备注:图片由AI生成,图片授权服务商Midjourney
为了回答以上问题,量子位智库特别邀请AI大模型领域的从业者及领域专家学者,向企业团队和求职者分享大模型人才的机遇挑战以及未来发展前景。
本文为量子位智库“大模型人才”系列深度访谈栏目,更多内容请关注即将发布的《2023AIGC大模型人才发展全景报告》
访谈人物介绍
方汉,昆仑万维董事长兼CEO,中文Linux创始人之一,领导开发了国内第一款P2P下载软件DUDU加速器。
2008年加入昆仑万维,先后领导研发了《三国风云》和RPG类网页游戏《武侠风云》,并且多次获奖。
精彩观点
1-2年内,算法人才的短缺情况会得到极大的缓解。
我理解的人才创新意识,指的是在技术和工程角度如何创新性地解决问题、提高指标。
“选择”比“培养”更重要,自主学习比师父带徒弟更加重要。
在大模型这样的全新领域,刚毕业的博士生经过半年时间的培养,也能成为领域专家。
从供给角度看,目前大模型人才处于不足的阶段,3-5年后情况会极大地缓解。
从宏观角度来看,与传统行业相比,大模型人才培养难题在于大学目前的算力不够。
基于AI和大模型,在应用层面做出全新商业模式的企业将获得最大的红利。
访谈实录
大模型人才如何定义?
量子位智库:昆仑万维是如何划分大模型人才的?
方汉:我认为模型训练应该分成两大块,训练推断与应用开发。按照模型训练的环节,我们又把人才分为算法侧人才、架构侧人才以及应用开发侧人才,核心算法人才又细分为预训练、数据处理、微调推断优化等等。
量子位智库:算法人才、架构人才、应用开发人才,您觉得哪类人才最为稀缺?而且未来很长一段时间都有可能很稀缺。
方汉:目前看,最稀缺的肯定是核心算法人才,但供需情况会迅速得到缓解。因为这里有一个很有意思的现象,目前各个大学算力是严重不足的,大模型相关方向又是当下热点,能转向这个研究领域的人才特别多,比如NLP,所有做NLP的人才全在转向大模型。
所以,我个人看法是1-2年内,算法人才的短缺情况会得到极大缓解,因为拿到高薪的算法人才特别多,我觉得中国在人才配比上还是很市场化的。
大模型人才应当具备的能力要素
量子位智库:那在招揽人才的时候,是比较看重人才本身哪些素质?
方汉:在您所说的学术成果、实践经验、学历背景和创新意识这几个方面,我们优先考虑的是实践经验和创新意识:首先,大模型训练本质上是个工程问题,那么实践经验肯定是非常重要的。其次,大模型是创新项目,因为所有大模型企业都在齐头并进地去竞争,如果没有创新意识,很难领先于其他人的,因为这是全新的工程方向。
量子位智库:您是如何看待这种创新意识?
方汉:我理解的创新与大众定义的创新不太一样,以往更多是算法创新。我所说的创新,首先是紧跟大模型的前沿进展,全球范围内研究大模型训练的人非常多,这个方向进展很快,每天有几百篇新论文出来,在各个方向、领域做改进。第二个是能够从实际需求出发,用新方法来解决在工程上遇到的问题,这里的创新更关注的是如何在技术和工程角度创新地解决问题、提高指标。
量子位智库:您觉得是否可以通过学术成果、专利成果等来判断大模型人才的创新意识?
方汉:我认为根据专利成果来判断人才的创新意识是不太合理的。OpenAI并没有那么重视人才在申请专利方面的表现,最好的创新其实依赖的是内部的经验积累,仅从专利角度来判断是不太合理的。
然而,学术成果是可以作为比较重要的判断依据。比如说第一个做出Vicuna模型,第一个做出ControlNet都是博士生,从这个角度来看学术成果可以作为一定参考。
但是在实际操作过程中,除了发论文的大创新以外,在工程上还要有无数的小创新来实现。所以,创新意识还是要根据人才在实践中解决问题的速度和交付能力来判断。
大模型人才的培养方式
量子位智库:天工大模型从1.0升级到3.5阶段,在不同的阶段会注重配置哪些领域的人才呢?
方汉:在早期阶段我们确实是更需要对大模型底层架构、对CNN、对Transformer更加熟悉的算法人才,当然还包括数据清洗、数据处理这些方面的数据科学人才;等到大模型逐渐成熟需要转向多模态,这时就需要一批做计算机视觉的人才;如果要对外发布大模型,就需要安全审核的人才。
量子位智库:昆仑万维是如何培养自有的大模型人才?
方汉:昆仑万维从2020年开始做大模型训练,当时市面上做大模型的人才非常少,走BERT路线的人比较多,走GPT路线的人比较少,所以我们当时选择自己培养大模型人才。
培养方式就是让有算法背景的人才学习模型训练方向,那么在招聘时就要考虑选择对机器学习、深度学习熟悉的人才,同时有较强的自驱力和学习速度比较快的人才、有算法背景的人才,我们原来有一些人才研究的是CNN等技术方向,现在会更多地转向GPT训练方向。
量子位智库:您如何看待“大牛带小牛”的这种培养模式?
方汉:每个技术驱动的企业其实都会选择“大牛带小牛”的培养方式,但选择人才比培养人才更重要,自主学习比师傅带徒弟更加重要,所以在招聘时我们也十分看重人才的自主学习能力。
对于传统技术方向,比如Java,需要依赖丰富的经验,应届毕业生需要较长的培养周期,才能成长为领域专家。但大模型训练是新兴领域,工业界的积累并不比学术界深厚太多,我们比学术界多的是算力,在算法层面其实我们并不比高校领先太多。
量子位智库:那应届毕业人才如果成长为大模型专家,需要多长时间?
方汉:有大量在读博士生能够发表非常前沿的大模型论文,也看得出来很多大模型创新论文是博二、博三学生发的。我们在学校里找到来了就能上手的人才,花几个月就能成长为领域专家。
我们的想法是,从应届毕业的博士生中选择在校期间就表现出创新能力和技术视野的人才,我们可以用较短的时间来培养“小牛”,就能成为您说的“大牛”。
量子位智库:通过几个月到一年的时间,这样的应届博士生就可以成为领域“大牛”,我理解您所指的“大牛”他们是具备核心研发的能力。
方汉:对,我们给年轻人的机会非常多。其实OpenAI做GPT训练的,可能才几十人,其中有一大批是刚毕业没几年的人才。我觉得国内大模型团队基本都是这样,这是一个全新的领域,新人的机会特别大。刚毕业的博士生干了半年左右,成为领域技术专家是没问题的,但管理能力肯定是有欠缺的。这个技术领域很新,大家都在同一个起跑线上向前跑,应届生不一定有劣势。
量子位智库:您说的应届人才大多是自然语言处理方向的吗?具体会细分到哪些领域?
方汉:也不完全是自然语言处理,我觉得在大模型全生命阶段,除了数据处理需要依赖工程积累,在预训练、RLHF、SFT、算子优化等方面,在学术上都有相应研究方向,所以我认为他们具备了70-80%大模型研发训练的能力。
研究机器学习、强化学习、深度学习的人才,转向大模型都非常容易。而且由于现在有很多开源模型,学术界基于开源模型做论文研究的人也很多,所以我不觉得高校人才存在分工上的绝对差距。
国内大模型人才市场的发展情况
量子位智库:您觉得目前大模型人才市场整体发展如何?
方汉:我觉得大模型人才整体处于一个高度稀缺的状态,那么做存量的人会多一些。但是随着大模型从业者越来越多,分工也会越来越细,这是很自然的分化过程。任何一个新技术的发展过程都是这样,从早期的全栈工程师逐渐成为组长级、总监级的leader,然后组员的技术方向分化就会更明显。
量子位智库:昆仑万维招的人才大部分是来自高校,还是来自这个产业更多?
方汉:我们目前需要有实践积累的人才,就会更多选择来自产业的人才,他们有丰富的工程经验。但也会招聘应届毕业人才做储备,所以校招也比较多,校招跟社招的比率差不多1:5的关系。
量子位智库:您觉得目前的这个大模型人才发展处于一个什么阶段?
方汉:从人才整体的学术成果数量来看,全世界AI论文发表数排在第一的是中国,排在第二的是美国,论文数目是美国大于中国。
我认为在人才的能力要素方面,不同经验的人才都是大模型所需要的,刚毕业的应届储备人才、领域专家和领军人物这三者应该都有。但从供给角度来看,目前就是处于不足的阶段,大概3-5年后供给情况会极大地缓解,因为从设置科目到学生毕业也需要5年时间。
大模型人才的培养难题
量子位智库:您觉得人才培养可以从哪些方面进行提升呢?
方汉:我主要从两个来分享吧,企业角度和宏观角度。
从企业角度来看,人才参与工程项目,成长就更快一些,这是非常明显且实际的方式。对人才更有耐心的大企业,人才做的事情会更专业,但小公司大模型团队的人才成长得更全面,大模型全栈的能力要素都要具备。
从宏观角度来看,和其他传统行业相比,大模型人才培养难题在于大学目前的算力不够,导致学校很难培养出架构人才,这些人才只能去企业进行培训。这是全世界所有大学面临的困境,在国家级算力共享给大学之后,我们相信这种情况会得到缓解。
量子位智库:也就是更多依赖于产、学、研、策的联动来培养大模型的人才。
方汉:我觉得要尽量在学校里提供与企业一样的硬件条件,否则在学校里学到的东西肯定是相对有限的。
大模型人才和AI企业的未来发展趋势
量子位智库:那从您的角度来看,大模型行业整体未来会有什么样的发展趋势?
方汉:我觉得不应该叫大模型行业,应该是整个AI行业,AI行业遇到的机会应该是不亚于互联网和移动互联网。我对AI行业的发展趋势是非常看好的,我认为AI将深刻改变整个互联网,以及整个人类生活都会受到极大的冲击和改变,我觉得整个行业会发生方向性的转变。
量子位智库:基于这样的趋势,您觉得什么样的大模型人才会更受企业的青睐?
方汉:首先,现在已经形成“百模大战”的情况,大家都在做大模型底座,将来大模型底座这一块肯定会收缩到几家大厂商来提供,更多企业应该处在用大模型做应用的位置,那么我认为基于大模型应用开发的人才会越来越多。
而做大模型底层训练、优化算法和架构的人才会向大厂或是大模型团队去汇集,但我们认为最大的巨头不一定是大模型企业本身,而是基于大模型做出很强应用的这些企业。这些企业一旦它长大了,也会建立自己的大模型。
我们认为“应用为王”,就是指在应用上基于AI和大模型,做出全新商业模式的企业将获得最大的红利。那么我们认为在未来十年一定有像字节,美团、滴滴这样的新形态巨头公司出现,而且一定是从0到100长出来的,今年或者明年创立的公司应该都有这个可能性和机会。
更新于:2023-10-01 13:20