全面对标 OpenAI,智谱 AI 想要开发者

2024-01-17 13:37
摘要:从成立之初就一直对标 OpenAI,也被称为「中国 OpenAI」的智谱 AI,发布了新一代基座大模型 GLM-4,性能相比上一代大幅增强,逼近 GPT-4。并且,如几年前萨提亚·纳德拉带领微软全面拥抱开发者、开源一般,直接打出..

从成立之初就一直对标 OpenAI,也被称为「中国 OpenAI」的智谱 AI,发布了新一代基座大模型 GLM-4,性能相比上一代大幅增强,逼近 GPT-4。并且,如几年前萨提亚·纳德拉带领微软全面拥抱开发者、开源一般,直接打出了「GLM ❤️开源」、「GLM ❤️开发者」的 Slogan。

“对标 OpenAI 的全栈大模型生态,我们努力赶上。”智谱 AI CEO 张鹏这样说道。

北京时间1月16日,在 OpenAI 首次 DevDay 发布 GPT-4Turbo、GPTs 应用商店等的两个月后的今天,智谱 AI 在北京举行首次的技术开放日(DevDay),带来了新一代基座大模型 GLM-4,整体性能相比上一代大幅增强,逼近 GPT-4。可以支持更长的上下文,具备更强的多模态能力,有着更快的推理速度、响应高并发的能力,推理成本得到了更进一步的降低,还对智能体能力进行了大幅增强。

除了模型本身之外,智谱 AI 还带来了GLM-4All Tools 的全家桶,对标 OpenAI 的 GPT-4All Tools,能够实现多工具自动调用,自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、代码解释器和多模态文生图大模型以完成复杂任务。

这对于我们而言,最显著的变化是,不需要使用 Prompt 提示词或者编程语言的方式来调用大模型的各种能力,比如问答交互、绘画、编程、数据分析、处理各类文件等。

上面绘画的理解很简单,通过直接的上下文绘画指令,可以连续迭代。对于开发者们值得关注的是在代码能力上,针对注入多项式求解此类问题,GLM-4会通过自动调用 Python 解释器,来自动写出求解代码,然后运行进行求解。

而最值得开发者关注的是,一如 OpenAI 带来了 GPTs 和应用商店,让人人都可以构建自己的 GPT,并且可以通过应用商店上传自己的 GPTs 赚钱。

GLMs 及其应用商店也来了!

无需掌握编程技能,通过简单的提示词指令,即可创建属于自己的 GLM 智能体。并且,用户可以通过全新上线的智能体中心分享自己创建的各种智能体。在会议现场,张鹏同时预告,GLMs 模型应用商店开发者分成计划也将同期公布。

智谱真的非常“质朴”,并没有直接说“赶超”,而是从多个评测基准来以百分比的方式明确表示自己有哪些是超过,哪些是持平,哪些是还有差距。并且,全面对标 OpenAI,一样不少,也一样不多。

这背后,张鹏及智谱 AI 是如何思考的?当 Sam Altman 在和比尔·盖茨的对谈中,说到多模态是未来两年的里程碑,谈到人工智能在未来五到十年内,会处于非常陡峭的成长曲线,「现有这些模型都将变成最愚蠢的模型」,智谱 AI 的目光所及到了哪里?

在 DevDay 现场,CSDN 独家采访了智谱 AI CEO 张鹏,一起来听他的思考与答案。

模型之战

CSDN:今天看来,智谱 AI 带来的发布和 OpenAI 已发布的路子颇为类似,许多人说这是“全面对标 OpenAI,一样不少,也一样不多”,为什么会这么做?

张鹏:其实这个问题之前我们内部也有讨论过,要不要做一点不太一样的东西,最后讨论下来的结论是,与其花精力想些花里胡哨的,不如老老实实将我们所做的分享出来。我们做了很多事情,但专门为开发者做活动或者此类的事情,是第一次,我觉得有必要在这个时间节点来做。

当然,也有参考 OpenAI 的方式,但也的确,智谱是比较朴实,并不怕和别人比,这也是一种勇气的体现,对于不如的直接承认,做得好的也直接分享出来接受大家的检验,也接受大家的质疑和质问。然而,OpenAI 和我们的 DevDay 时隔两个月,但我们之间的差距并不是简单的两个月,从学术上而言,增长曲线是越到后面花费的成本就越高、时间越长。

CSDN:GLM-4性能比上一代大幅增强,逼近 GPT-4,有没有考虑过 GPT-5可能会带来指数级的提升。我们看到 GPT-5可能会在2024年发布,而且 OpenAI CEO Sam Altman 此前也表示,建议创业者基于 GPT-5来进行开发,而不是基于 GPT-4。

张鹏:Altman 所言是针对开发者和用户,但并非是模型厂商。对于模型厂商,目前看来还没有办法在4还没有实现的情况下就跃进式地实现5。对用户而言则不同,用户并不需要明白其中的能耗、过程及原理,只需直接使用就可以。Altman 的倡导更多的是在于建议将精力放在怎么使用上,而不是做「套壳」。对此我是认同的。假如不是做模型的企业,的确是没有必要去做,选择最好用的就可以,无论是 GPT-4、GLM-4或者其他的都可以。

CSDN:那在智谱 AI 内部对于 GPT-5的方向是否展开过讨论,有哪些观点可以分享?

张鹏:的确是有。对于未来的方向,今天张钹院士的分享中体现得颇为透彻,即多模态、智能体和具身智能这三点的演进。大的方向很容易达成一致,行业内大家的认知判断不会有太大的差异。

CSDN:对您而言,张钹院士是对您职业生涯影响最大的人吗?

张鹏:是的。我们在清华大学计算机科学与技术系里读书及工作,张钹院士是计算机系的老师,经常组织大家一起听他的报告,也会对人工智能发展的下一步思考及计划进行研讨,他非常愿意和大家分享他的思考,每一次听我都会有不一样的启发。作为人类顶尖的科学家,他的每一步的前进都是在往无人区的方向前进,这是非常有价值的,能够给我很多的启示。

2020年当我们公司成立一周年,也是 GPT-3发布之时,我当时请教张钹院士,他的回答让我印象格外深刻。他说这个技术非常好,耳目一新,但它仍然存在诸多问题,张钹院士当时就非常明确地指出了后来大家所热议的「幻觉」问题。

CSDN:张钹院士提到的三点,多模态、Agent 是当前大家正在做的,那么具身智能是否会是下一步的方向,对智谱 AI 而言会尝试吗?

张鹏:可能是一个方向。其实无论是 Agent、具身智能甚至是多模态,在人工智能领域都并非今天才提出,有很长的历史可以追溯,我们需要关注具身智能背后的科学原理、基本理论,理论体系是否完整,有哪些研究,哪些是成功或失败的。

CSDN:我看到您的演讲文件里直接打上了「GLM ❤️开源」、「GLM ❤️开发者」,这是在学习微软吗?

张鹏:我倒还真不知道微软的这段故事,但这是我们团队做开源、支持开发者社区一贯的传统,从在学校做研究时即是如此。我们非常相信群体智慧,个体智慧的能量相对有限,还是需要将生态做好。

CSDN:所以属于不谋而合?

张鹏:我理解应该是这种状态。

大模型原生应用可能是生成式 AI 是否会破灭的关键

CSDN:今天我们看到智谱 AI 对于开发者有着非常系统的输出,包括 GLMs 智能体、应用商店,以及开发者分成计划。未来几年,智谱 AI 在开发者方面还有哪些的规划?

张鹏:应该会持续上很长一段时间。对此,我有着很强的感触,过去一年我基本跑在一线,了解到市场对于大模型应用落地有着非常急迫的需求,特别希望能够爆发。但我很惊讶大家对于智能应用的爆发预期没有那么快。

CSDN:是的。我们都在讲,LLM 会重构所有行业、所有应用,但困惑点很多。一方面,您之前讲过,对于大模型原生应用,期待它是一种新的东西,而不是把原来的应用拿来做一个升级。而对于本身专业做应用的开发者和企业,如何跳出原有的思维框架,看到 LLM 与应用结合的新机会、做出新产物,又是问题,充满着不确定性。您的思考是怎样的?

张鹏:这点可以从 Gartner 对于技术周期的预测来看,它预测生成式 AI 正处于“期望膨胀期”(即泡沫期),接着将进入破灭期。我们分成两方面来看,首先看它的结论是否会准确,其次是,如果准确的话,那么我们可以用什么方式来打破这个规律?对于大家而言,是否还能接受 AI 再一次历经起落进入寒冬?我们是否有办法来让规律变得平稳而不是跌入谷底?

CSDN:您作为亲身参与的实践者,对于这点有明确的方向吗?怎么确保不会进入破灭期?

张鹏:其实你在前面已经提到了,这个问题的钥匙可能就是「大模型原生应用」。它的本质是要依赖于创新,要综合外力和内力,类似于核裂变和核聚变。

上图由 CogView 绘制,并给我做了一段图片说明:图片已生成,展现了一个未来城市景观,其中大型全息屏幕展示了各种生成式AI应用。这些屏幕显示了虚拟现实、机器人和自动驾驶汽车等多样化和先进的技术,所有这些技术都由大型模型原生应用驱动。整个场景繁忙且技术先进,反映了一个与生成式AI深度融合的世界。

CSDN:外力和内力可能分别是什么?

张鹏:我身在局中,对于外力我也尚未可知,唯一可以确定的是内部力量,我们可以将内部的所有「钉子」砸一遍,这是可预期的。

CSDN:尝试成本还是蛮大的。

张鹏:没错,这就是需要付出的代价。

CSDN:这是否会涉及到一波的淘汰?

张鹏:做应用有两种可能,一是基于原来的应用,用 AI 这把「锤子」重新砸一遍;另一种是创新,寻找新场景做增量,这才是大概率最终能够活下来的部分。所以我认为 Altman 是侧重点是不要去折腾模型微调之类的事情,而是真正思考在最好用的模型上能够做出什么更有创造性的事情。

CSDN:那么我理解下来,应该是基于模型正在做各种分层,而让开发者本身能够将精力与成本更多地投入到做创新上。

张鹏:是的。这就是我所讲的,我们将大模型的「锤子」已经给到大家,除了砸现有的「钉子」外,是不是能够想更多的办法去砸其他的事物,这是非常建议尝试去做的。

CSDN:您今天也分享了 ChatGLM 开源的成果,在社区里有人嗟叹说 ChatGLM 的开源动作还是慢了,被 Llama 抢先建立了生态。对此是什么样的想法?

张鹏:我们支持开源社区、做技术开源这件事情,本质上还是想要推动技术的演进,它并非是基于商业化的考量。当然,商业上是有所帮助,但它最重要的目的还是推进技术本身的演进,吸引所有开发者来探究技术的理论与实践。开源社区存在的目的其实就是为了保持技术的创新和多样性,我们要取之开源回馈开源。我们本质是希望能够促进社区繁荣,影响力越大,说明我们做的事情越有意义。

CSDN:智谱 AI 在2019年成立时就对标 OpenAI,到 GPT-3面世之后,再到现在,怎么看待一直被称为「中国的 OpenAI」,成为中国 OpenAI 要素有哪些关键要素?

张鹏:我们很钦佩 OpenAI 的远见和坚持,到现在做了将近9年的时间,这么早做,同时我们基本上看它在过程中没有走太多弯路,一直在坚持做现在看起来正确的事情。

其次,我们目标、理念相同,当然也承认相比之下还有差距,他们走得更快、更好,但我们首先要学习,在学习过程中保持独立的思考。

最后,我们并不太在意别人如何评判我们,最根本的还是在于我们想要做的究竟是什么事情。

CSDN:思路一直没有变过,要做 AGI,让机器像人一样思考。

张鹏:所以我们是在目标上相同,在追寻目标的路径上到目前为止很相近,但其实掰开内核来讲其实很多都都不一样。从 GPT-3之后大家都是各自发展,很多事情也是我们自己在摸索。

CSDN:我们站在现在看,一方面,在模型层,Altman 说当前的模型未来都会变成最愚蠢的模型;另一方面在应用层,智能应用又有着许多未知的空间,越来越多没有编程基础的用户加入到开发者中来,那么对于现在专业的开发者们而言,您有哪些思考和建议可以分享?

张鹏:我有一个建议。可能对于现有的专业开发者而言,可能理解其本质最为关键。当前并不是模型简单地从几兆到上百 G 这么简单,其中的原理有非常大的变化。一如张钹院士所提出的「Next token prediction(预测下一个字段)」,这件事情是一个非常伟大的想法,真的有可能帮助人类解决我们已知的所有问题。如果停留在原来的思维方式上,有可能根本就不知道该怎么拿「锤子」砸向什么地方。

CSDN:所以核心是思维上的转变?

张鹏:这个是最难的,可以称之为认知上的转变。

CSDN:总结起来就是针对认知智能,对于开发者们而言要做认知上的转变。

张鹏:没错,因为这一代就是认知的***。只有认知上做根本的转变,才能跟上这个时代。

更新于:11个月前