国产开源大模型,起风了
科技的浪潮几十年一个轮回,不同的剧本却总是响起相似的鼓点。
如果说,一年前ChatGPT的惊艳现身,是属于大模型时代的「iPhone时刻」;那么,7月间Meta将Llama2开源,则被认为是拉开了大模型时代的IOS与安卓之争。
但区别于移动互联网时代,大模型的起跑线上,不是寡头的一枝独秀,而是各国厂商的百家争鸣。在Open AI上演「奥特曼去哪儿」的大戏时,越来越多国产厂商磨刀霍霍,酝酿着一场开源大模型时代的飓风。
图源备注:图片由AI生成,图片授权服务商Midjourney
正如今年9月百川智能宣布开源大模型Baichuan2-7B等版本时,创始人王小川的自信发言:「从今天开始,当我发布Baichuan2之后,再用LLaMA2作为一个开源模型的时代已经过去了。」
加速奔跑的远不止百川一家,如阿里云、智谱AI和清华EKG都选择了开源路线。就在12月的第一天,作为国内首家开源的科技大厂,阿里云再次向行业投出了一枚「重磅炸弹」,其宣布开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。
这意味着,通义千问的开源大模型矩阵再次扩容,真正实现了「全尺寸、全模态」开源。
不难看出,「开源、开放」是近期阿里云频频强调的关键词。就在一个月前的云栖大会上,阿里巴巴集团董事会主席蔡崇信曾强调,「随着大模型技术的迅速发展,智能化时代正在开启,阿里云要打造AI时代一朵最开放的云。」
全尺寸参数大模型的开源印证了这一决心,这对于创业者和开发者而言带来的影响是巨大的。性价比、性能、生态繁荣,已经依稀让他们看到了属于自己行业的「奇点」一角。
正如业内人士普遍认同的,未来90%的企业会倾向基于开源大模型发展。从科研到创业再到千行百业的开发者,依托于开源生态,迎来属于这个时代的「智能涌现」。
1
开源闭源,谁是终局?
「想努力学习,又控制不住想玩游戏」。
「看起来你对学习有热情,但也有些迷茫,有没有制定一个学习计划呢?」
以上酷似心理咨询的对话,发生在一款心理健康大模型「MindChat漫谈」上,其研发团队为华东理工大学·X-D Lab(心动实验室)。
「孤独是一种普遍的社会情绪」,团队成员颜鑫说,「心理服务在整个社会有很大的需求空间,但供给匮乏」。
而依托大模型应用的落地,科研工作者正在把心理咨询变得普惠,从奢侈品变成常用品。其驱动力,按照颜鑫的话说,是「为场景找技术」,而非「为技术找场景」。
无论开源还是闭源,大模型技术路径的选择如何,都离不开场景落地的终局挑战。正如阿里云CTO周靖人所言「今天闭源、开源都是一种手段,关键是今天怎么能够让这些模型,快速应用在各种各样的场景里面。」
不可否认的是,虽然开源闭源并非单选题,但对于开发者和行业创业者等B端用户来说,开源的优势显而易见。
从颜鑫团队的应用来看,在注重隐私的医疗、心理场景,开源大模型更符合私有化部署的需求,而对于有鹿科技所在的具身机器人领域来说,开源意味着可以随着行业发展、需求变化而灵活调整的可能性。
作为专注于大模型+具身智能领域的科技创新企业,有鹿当前的客户主要集中在清洁领域和新能源领域。
拿清洁机器人来说,市面上绝大多数的相关机器人只能进行机械化的全覆盖清扫。但搭载了大语言模型的机器人,则可以对物理世界有着更清晰的理解,这带来的是真正的「智能」响应。
举个例子,当物业经理说:「一号楼门前有个可乐瓶,你来扫一扫。」看似简单的指令需要机器人理解什么是「门前」,能够区分「水瓶」、「矿泉水瓶」和「可乐瓶」,最后在精准作业目标的指引下,规划出清晰的作业轨迹。
「当机器人没有办法理解人类这一串描述代表什么时,它就没有办法实现我们所希望它在物理世界达到的智能性水平,这是有鹿机器人和通义的最大结合点。」有鹿创始人陈俊波说,「我们需要的不是一个一成不变的、智能性水平的大语言模型,而是随着数据的积累,能变得越来越聪明的大语言模型。闭源大模型显然做不到这一点。在我们的业态里面,终局一定是开源模型。」
从PC时代的Windows和Linux,到移动互联网的安卓和IOS,再到SaaS发展史上的开源闭源之争,历史总是反复上演。
闭源的阵营高举着「简单易用」的旗帜,ChatGPT挺身站在阵前,成为「大众知名度」的代表。而在开源的阵营里,是无可否认的开放性生态优势,以及更低的使用成本,成为各行各业触摸时代脉搏的捷径所在。
最直观的例子是OpenAI,业内人士透露,大模型训练和运行耗费巨大的算力资源和数据,仅在2022年,OpenAI 总计花费就达到了5.4亿美元,而其产生的收入只有2800万美元——这是行业应用者无法接受的投入产出比。
鲜明的对比是,在12月1号的通义千问发布会上,一位个人开发者土土表示,他在用一种很省钱的方式玩开源模型。「在家里买个服务器、扔三四块显卡上去,下载Qwen、让它在服务器上运行,再搞个FRP反向代理,从阿里云上买最便宜的30多块钱一个多月的服务就行,这样就能通过外网访问家里的服务器,在单位里也能用通义千问做实验。」
2
开源,不是一味求大
7月19日,Meta的Llama2宣布开源,「可商用」三个字引爆了大模型创业圈,开源渐成主流趋势,猎豹移动CEO傅盛甚至感叹,「有的人哭晕在厕所,而有的人在梦中也能笑醒」。
大模型加速商业化时代到来,海内外风云搅动,但胜负远未揭晓。
据「深网腾讯新闻」报道,越来越多创业者认为,相比Llama2尤其是Llama2的汉化版本,国内开源大模型的水平和能力其实不相上下。而虽然Llama2的预训练数据相比第一代扩大了一倍,但中文预训练数据的比例依然少的可怜,仅为0.13%。
中文能力之外,另一个现实是,训练Llama2并不便宜,HuggingFace机器学习科学家内森·兰伯特估算,Llama2的训练成本可能超过2500万美元,不比OpenAI三年前训练GPT-3的花费少。
以上种种,都给国产厂商的开源大模型留下了机会窗口。性能参数、性价比、可靠性,正成为抢占先机的关键词。
仅仅在过去的一个月内,国内最大开源模型的参数纪录就被刷新了N次。
从元象XVERSE开源650亿参数高性能通用大模型XVERSE-65B;到浪 潮信息发布完全开源且可免费商用的源2.0基础大模型,包含1026亿、518亿、21亿不同参数规模;再到阿里云正式开源了通义千问720亿参数的大模型Qwen-72B。
其中,Qwen-72B延续通义千问预训练模型一贯以来的强势表现,在10个权威测评集夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。
国产大模型厂商疯狂向上摸高,但参数尺寸远不是开源大模型的最关键指标。对于行业客户而言,他们要考虑的更多。
以颜鑫所在的心理学科研团队来说,在做模型选型时,至少要考虑三个问题:是否可持续?是否有生态?以及是否满足场景需求?
科研团队没有资源从头训练基础模型,但科研需要持续投入,为跟风、吃红利而生的大模型不可持续。而主流的、稳定的模型架构,能最大限度发挥生态的力量,匹配上下游的环境。而从这两点出发,背靠阿里生态的通义千问成为了高分候选者。
此外,心理领域需要温柔、知性、能共情的大模型;教育大模型要有丰富的知识、优秀的计算能力和调用外部工具的能力。颜鑫告诉我们一个有趣的现象,作为人工智能的代表,不同厂家的模型性格各异,从知识结构来说,有的模型像文科生,而通义千问更像理科生。这也成为他们最终建立合作的关键因素。
事实上,大模型从来不是越大越好,而是越合适越好,正如周靖人此前所说,「未来,一定不是one size fits all」,不同的场景适配不同的参数,不同的形式,届时大模型将走过野蛮生长阶段,来到精耕细作。
「开源模型有各种尺寸,总有一款适合你,如果试过以后发现所有的模型都不行,那可能这个需求本来就不成立。」未来速度创始人秦续业的创业方向是分布式推理框架。
在服务客户的过程中,他发现,目前用户大部分都是用13B以下较小尺寸的模型。如外接知识库做问答应用等,完全够用;如果需要具备一定的逻辑推理能力的模型,20-30B的中等尺寸模型是比较好的选择。在Agent或者需要强大推理能力的场景中,70B+大模型更有优势。
大模型百花齐放,而创业者各取所需。这一定程度上解释了为什么通义千问发布会强调的是「全尺寸」、「全模态」,Qwen-72B「向上摸高」,Qwen-1.8B则「向下探底」,成为市面上尺寸最小的中国开源大模型,这意味着其推理所需的最小显存不到1.5GB,实现了在手机等消费级终端部署。
另一个维度则是在感官上实现「能看」也「能听」。
继今年8月,通义千问开源了视觉理解大模型Qwen-VL之后,本次除LLM之外,通义千问团队首次开源了音频理解大模型Qwen-Audio。不同于仅能处理人声信号的传统语音模型,也能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。
3
成就最开放的一朵云?
被誉为开源运动的圣经,埃里克·斯蒂芬·雷蒙所撰写的《大教堂与集市》中有这样一段表述:
Linux具有颠覆性。五年前(1991年),谁曾想过一款世界级操作系统会以如此神奇的方式诞生,它由遍布全球、仅通过脆弱的互联网纽带连接的数千名兼职开发人员的努力构建而成。这完全出乎我的意料。
而这「出乎意料」的故事,在每一个科技浪潮中都反复上演。
此前在一份被认为是意外泄露的文件中,一位谷歌的内部研究人员表示「我们没有护城河,OpenAI也没有。」
而之所以会有这样的「觉悟」,就在于一股不可小觑的第三方力量「开源社区」,以其中的顶流Hugging Face为例,其提供的高质量开源模型与工具,最大限度地普惠了开发者,降低了大模型的技术门槛。
开放生态是不可逆的潮流趋势,典型的印证是,今年8月,Hugging Face获得了2.35亿美元的新一轮融资,其背后的投资者是谷歌、亚马逊、英伟达、Salesforce、AMD、英特尔、IBM 和高通。
而在国内,阿里云是将开源生态进行的最为彻底的大模型厂商。
事实上,本次已经是阿里云第四次推出免费的开源模型。而在9月份,阿里云在开源通义千问140亿参数模型 Qwen-14B以及其对话模型Qwen-14B-Chat的同时,一并开放了相关的数据报告,包括与预训练、对齐等一系列模型训练过程有关的数据、方法都在报告中得以详细呈现。
「不单单开源我们的模型,把报告也分享给大家,能够让大家体验到模型各式各样的表现,更有效地帮助大家进行模型的应用。」周靖人表示。
早在去年11月,阿里云首次在业界提出「Model as a Service」理念,并推出国内首个AI模型社区「魔搭」,开发者可以在社区上下载开源AI模型,并直接调用阿里云的算力和一站式的AI大模型训练及推理平台。
仅仅在一年后,云栖大会上阿里云给出的数据显示:魔搭社区已有超过2300个模型,开发者超过280万,模型下载次数也超过了1亿多次。
在阿里云的愿景中,魔搭社区应是一个「自由市场」,模型生产者可以在这里上传模型、验证技术能力,探索应用场景和商业化模式。
而这样的模式下,国产模型厂商之间不再是彼此竞争的「孤岛」,据了解,百川智能的第一款70亿参数规模的中英文语言模型 Baichuan-7B,和130亿参数通用大语言模型Baichuan-13B-base和对话模型Baichuan-13B-Chat,均在发布当天上架了魔搭社区,属于国内首发。
合抱之木,生于毫末,九层之台,起于垒土。
高质量开源的基础大模型,在开放生态的推动下不断迭代优化,进而推动AI应用的创新涌现,这一整条清晰的商业路径正悄然形成增长飞轮,让AI普惠不再是一句虚言。
更新于:2023-12-04 13:30