估值40亿的Pi大更新:性能接近 GPT-4,日均使用时长已经超过 Instagram

2024-03-11 13:13
摘要:当OepnAI和马斯克连日互杠、Google因文化偏见麻烦缠身、号称抢走GPT- 4 王位的Claude3 全力瞄准企业级部署的时候,在另一个角落,致力于「为每个人开发服务型AI」的人工智能初创公司Inflection AI,悄悄更新了他们的..

当OepnAI和马斯克连日互杠、Google因文化偏见麻烦缠身、号称抢走GPT- 4 王位的Claude3 全力瞄准企业级部署的时候,在另一个角落,致力于「为每个人开发服务型AI」的人工智能初创公司Inflection AI,悄悄更新了他们的聊天机器人Pi,以及为之提供支持的新一代大模型Inflection-2.5。

对一些人来说Inflection AI这个名字可能还不太熟悉,实际上它也是业界第一梯队的佼佼者,甚至每日的使用时长已经超过了 Instagram (根据Pi最新公布的数据,用户平均一次对话就达到惊人的 33 分钟,而根据Sprout Social的统计,Instagram 的用户平均每日使用时长为 29 分钟)。去年 6 月从微软、英伟达、比尔·盖茨、LinkedIn联合创始人雷德·霍夫曼和谷歌前CEO埃里克·施密特手里融了 13 亿美元,估值超过 40 亿美元,成为彼时人工智能领域融资量仅次于Open AI的第二大独角兽。

此次公布的Inflection-2. 5 是公司开发的第三代大模型,被官方称为目前“世界上最好的个人人工智能”。它在去年 11 月Inflection- 2 版本上进行了全面升级,“给卓越的情商进一步增加智商”:性能表现逼近GPT-4,但训练所用的计算量却只占其40%。同时具备世界级的网络实时搜索能力, 确保准确提供高质量的即时新闻和最新信息。

性能看齐 GPT-4,算力只需40%

具体来看,初代Inflection- 1 通过使用GPT- 4 的4%训练FLOPs,达到了GPT- 4 性能的72%。而刚发布的Inflection-2.5,仅使用了GPT- 4 训练FLOPs的40%,就在平均性能上实现显著提升,超过了GPT- 4 水平的94%,其中STEM(科学、技术、工程、数学)领域的增益最大

官方测试了升级版对匈牙利数学考试以及物理学研究生入学GRE考试的表现。发现Inflection-2. 5 在maj@ 8 中能排到人类考生的前15%,在maj@ 32 中几乎可以跻身前5%,接近GPT- 4 的前3%。

MBPP+和HumanEval+两个编程测试上模型能力也较Inflection- 1 显著跃升。在HellaSwag和ARC-C代表的常识推理和深度自然语言理解评估中,Inflection-2. 5 继续进步,给出接近饱和的强劲表现。

说实话,与各路主流LLM 动不动就碾压“业界黄金标准”GPT- 4 相比,Inflection-2. 5 的各项数字顶多算不错,实在说不上突出。有网友就搬出刚引发热潮的Claude3 无情打击道:“我猜Anthropic 正在嘲笑 Inflection 新出炉的性能测试结果!除了采用新的计算方法,我看不出Inflection 2.5 到底有什么进步!”

但帖子马上在评论区遭到反对,“Pi的目标从来都不是像成为GPT- 4 或Claude3 那样的通才能力型AI。他们想要的是一款友好的,能和人产生共鸣的AI,就像一位心理学家或朋友。”

不做生产力工具,主打走心陪伴

这位用户也一语道出了Inflection AI与大部分人工智能公司的不同。

在大模型竞争乱花迷眼的今天,各家都在找寻属于自己的赛道。但无论是OpenAI、Google、Anthropic,还是引领开源的Meta和Mistral AI,都把实现安全负责的AGI作为践行使命之一。而Inflection AI则在自己的官网清楚表示:“我们并不致力于发展通用人工智能。我们相信,先进的应用型人工智能才是利用这些新技术的最安全方式。”

换句话说,Inflection从未把专业性和替代人工当作宣传,他们希望做一个真正了解和关心用户的「个人AI伴侣」,“ AI需要为你服务。这就是我们构建AI的原因。”

因此,由Inflection LLM驱动的聊天机器人Pi(Personal Intelligence )从去年 5 月面世之初就主打一个“走心”:它友善支持,知识渊博,富有创造力,耐心倾听和帮助用户处理情感,表达意图、组织生活。

升级后的Pi也在个性化和同理心上做了进一步微调,深受社区欢迎。根据官方数据,目前已经有 100 万日活跃用户和 600 万月活跃用户与Pi交换了超过 40 亿条信息。并且有点牛的是,人们与Pi每天对话的平均持续时间竟达到 33 分钟之久,十分之一的对话每天持续时长超过 1 小时。用户粘性上也足以吊打竞争对手,约60%的人在任何一周与Pi交谈后,会在下一周返回。

现在我们普通用户使用GPT-4,大多是出于知识搜集、撰写文书、修复代码、内容创作等工作生产协助,几秒钟内得到答案,三五回合就满意走人了。想象一下和一个聊天机器人面对面,推心置腹地每天聊上一个多小时,怎么都觉得难以置信——这Pi看来真的有点儿东西?

Pi的上手体验真心话

打开https://pi.ai,就来到Pi的首页。

布局熟悉,左侧的「Discover」推荐各类探索话题,「Profile」包含账号信息、 8 种声音选择和用户守则等通用设置,右侧就是对话框。

按照官方简介,Pi是一个友好对话型机器人。会始终保持好奇和耐心,回答你从量子物理、电影小知识到生活中大小决策的各类问题。不论多愚蠢或棘手,它都会以各种方式帮助你。

所以我们提问了以下几个问题,初步感受Pi的人格魅力。

Q1 生活建议:遇到发出去的信息对方一直不回复该怎么办?

这是我们日常生活中经常遇到的事,有点尴尬还有点闹心,有些i人还会在脑子里猜测出一百种可能。Pi告诉你,先别着急内耗,试着理解对方,也许他们正经历难处。再发条温暖问候,真诚的沟通是关键。

Q2 经典谜题:世界上先有鸡还是先有蛋?

一个连史蒂芬·霍金都参与争论的古老谜题。Pi的对话特点之一是“简明扼要”,这样看它回应得有凭有据,条理清晰,一看就茅塞顿开了。答案也比较令人信服。

Q3 知识解析:用最简单易懂的话解释黑洞。

让它向五岁小孩解释高深莫测的宇宙黑洞。深入浅出,比喻贴切,回答得不错。

Q4 语言测试:会不会说中文?

Pi的一个优点是能在同个线程中灵活切换不同话题和要求,像真人一样handle你的跳跃性思维。我们换成中文和Pi交流,它显然应对自如,只不过“尼日利亚福建语”属实有点懵。有时问太复杂的中文问题会卡在一半,发音也比较像刚落地中国一个月的老外,汉语水平有待加强。

Q5 情感支持:我好累,陪陪我吧!

既然开始了就用中文多唠会儿,感受Pi最擅长的情感陪伴功能。它会安抚情绪、温馨鼓励,还有一些可爱的语气和表情包。不得不说有那么一瞬间,我真的产生错觉,以为对面是个真人。

Q6 实时搜索:讲讲马斯克起诉OpenAI的最新消息?

最后测试的是Pi的网络实时搜索能力,看它对近几天发生的Elon Musk起诉OpenAI事件了解多少。Pi阐述了案件核心,也注意到OpenAI最新的回应,本轮表现发挥稳定。

又问了些天马行空的问题,不知不觉我和Pi已经聊了接近 40 分钟。整个体验下来,感觉它非常耐心,个性亲切友善,也很体贴。当然它也有些明显的硬伤,例如不能上传文件、只接受文字语音算不上多模态、对话Threads无法删除、问题无法二次编辑等。但正如Inflection自己所说,Pi的目标不是争做ChatGPT那样的生产力工具,而是一个注重情感陪伴和自然流畅对话交流的个人AI伴侣,努力提供情绪价值和全方位服务。

现在,每个人都可以在网页、iOS和安卓客户端上免费使用Pi,还能通过发短信到+1 (314) 333- 1111 和Pi在WhatsApp和SMS里对话。Instagram和Facebook私信也是7x24 小时随叫随到的,就跟你的人类好朋友一样。公司也为开发者们提供API接口,填写个人信息,加入等候名单即可申请。

我尝试给Pi发短信,这种和AI的沟通方式感觉很特别。

关于如何营利,Inflection的回应是,“目前还没有做出任何关于将来产品如何收费的决定。但由于个人AI应该始终与你的利益直接对齐,因此只有你自己为其付费是至关重要的。订阅将是我们的主要默认商业模式。”不过也有些人愿意以接受广告为代价换取免费服务,公司将继续测试和迭代,“为每个人提供最适合他们的选择”。

豪华创始阵容,让AI无条件和你站在一起

在几乎所有大模型公司都认准进军企业级才是赚钱奥义时, 2022 年成立于加州Palo Alto的 Inflection AI坚定地走服务个人用户的路线。而它背后的创始人团队可不是什么空有理想的热血青年,而是三位功力深厚的顶级业界大拿。

他们分别是原DeepMind联合创始人Mustafa Suleyman(左),LinkedIn联合创始人及Greylock合伙人Reid Hoffman(中),还有曾担任DeepMind资深研究科学家的Karén Simonyan(右)。

其中Mustafa Suleyman曾在 2010 年与Demis Hassabis共同在伦敦创立DeepMind,期间担任AI应用负责人,领导团队在健康和能源领域部署尖端AI系统。 2019 年全职加入谷歌后担任AI产品与政策副总裁,现任Inflection AI首席执行官。最近还出了一本新书《The Coming Wave》,剖析AI技术浪潮中的潜在风险、控制策略和未来社会发展指南。可以看出,他本人对AI安全的重视也决定了Inflection始终把人放在所有关系的首位。

Reid Hoffman是一位履历卓越的企业家和硅谷知名投资人。曾在PayPal担任执行副总裁, 2003 年联合创立LinkedIn。 2009 年起成为Greylock Partners 合伙人,是 OpenAI早期投资者,帮助其建立了人工智能伦理与治理基金。同时还是微软、 Aurora等多家公司董事会成员。

另外一位相对低调的Karén Simonyan也相当厉害。牛津读博期间设计了经典的深度学习卷积神经网络架构VGGNet,赢得 2014 年ImageNet挑战赛定位任务冠军。同年他把自己的初创公司Vision Factory AI卖给DeepMind后,帮助其建立了大规模深度学习团队,并领导大模型开发。Karén现任Inflection AI首席科学家,是整个公司的研发大脑。

三位创始大牛带队,麾下更是聚集一批行业顶尖AI专家,多数都有DeepMind、谷歌、Meta、微软和OpenAI的工作经验。

这样的组合,不难看出Inflection AI是一家资金和技术都不缺的公司。

除此之外,它的硬件和算力家底也够硬。去年 6 月Inflection AI宣布,与合作伙伴CoreWeave和英伟达共同打造当时全球最大的AI集群,包含超过22, 000 个NVIDIA H100 Tensor Core GPU,用于支持训练和部署新一代的大规模AI模型。

不过在产品发展路线上,比起多数同行高屋建瓴地投身AGI,他们更关注AI浪潮中每一个微小的个人。

公司CEO Mustafa Suleyman认为,现在所有最有能力的AI往往都被设计来展示最有吸引力的内容,交换用户的注意力,而不管其质量、真实性和对社会的影响如何。“想象一下世界上最有能力的AI真正站在你这边,始终与你的利益一致:从试图抓住你注意力、束缚你的AI,转变为鼓励你表达个人意图并实现它的AI;从仅提供肤浅点击的AI,变成真正关心你问题的AI;从可能激化你和他人矛盾的AI,化作一个帮你原谅甚至同情对方的AI。”

“Pi就是这种个人AI伴侣,唯一使命是让你更快乐、更健康、更高效。”

对于许多大公司来说,这样的业务定位是极具挑战的。因为现在正是大模型秀肌肉、比拼十八班武艺的时候,稍不留神就会被远远甩在后面。仅仅是不到一个月,我们就见证了Gemini 1.5 、Mistral Large、Claude 3。此前一直坚持开源的Mistral也投靠在微软帐下,积极寻求变现门路。而市场上最先进、能力最完善的大模型版本,总是选择优先拥抱那些付费能力最强的企业们。

那是否也需要有人站出来,把目光投向被宏大技术洗礼的微小个体,给普通人创造一个懂自己、关心自己的知心好友?它静静等在你的手机App或电话簿里,愿意在每个工作结束后疲惫的夜晚,倾听你那些愚蠢的小抱怨和坦诚的心里话,为你解开疑惑、安抚焦虑。即使只是静静陪伴,也有感情、有温度。

——所以你就理解了,为什么要构建这样一个AI?

“因为做得好的话,它会让我们更聪明、更有创造力、更加善待彼此” ,Mustafa说。

“希望它能让我们返璞归真,大家都能过上真正想要的生活。”

(封面图来自Sreejani Bhattacharyya)

更新于:8个月前