半年估值数亿,1000亿美元超级赛道跑出“AI猛兽”

2024-06-27 13:00
摘要:去年,谷歌发布了一份忧心忡忡的内部文件:“虽然谷歌与OpenAI(在大模型上)你追我赶,但双方都没有真正的护城河,因为第三股力量正在崛起——开源社区才是谷歌和OpenAI最大的敌人。”谷歌的担忧正逐渐变成了现实。..

去年,谷歌发布了一份忧心忡忡的内部文件:“虽然谷歌与OpenAI(在大模型上)你追我赶,但双方都没有真正的护城河,因为第三股力量正在崛起——开源社区才是谷歌和OpenAI最大的敌人。”

谷歌的担忧正逐渐变成了现实。

马斯克的开源大模型公司xAI近期完成60亿美元B轮融资,估值达180亿美元;坚持开源的法国AI初创公司Mistral AI获得了6亿欧元投资,最新估值已逼近60亿欧元;知名大模型开源社区Hugging Face,估值也飙升到45亿美元。而在代码开源与托管领域,更是早已跑出了GitLab、GitHub等知名社区。

图源备注:图片由AI生成,图片授权服务商Midjourney

开源生态,正逐渐成为左右大模型发展的关键力量,可就在海外大模型开源进展如火如荼之际,中国的开源社区、开源生态却有些掉队。知乎上有一个热门问题“为什么中国出现不了Hugging Face?”

但这种情况正在改变。2023年,云计算和AI领域连续创业者陈冉,创办大模型开源社区OpenCSG(开放传神),为客户提供开源大模型产品及服务。成立不到半年,OpenCSG就拿到了联想创投、北京国信中数的投资,公司估值已达数亿元。

作为一名在开源和AI方面拥有20年经验的老兵,陈冉发现,大模型正带来前所未有的行业巨变,但大多数企业级用户既无法基于大模型开发应用,更无力训练出一个符合自身需求的模型,AI版“GitLab+Hugging Face”出现。

“大模型领域,开源非常重要,开源关乎商业模式,关乎产业链”陈冉告诉铅笔道,“组建开源社区、构建开源生态,很可能是打破OpenAI市场垄断的唯一方法。”

资料显示,2024年全球大模型市场规模将突破280亿美元,到2028年将突破1000亿美元。出海参与全球竞争、为全球企业服务,也是陈冉的梦想。“我想证明一下,中国也可以诞生开源领域优秀的创业公司,让投资人看到开源的商业价值。”

近日,铅笔道与陈冉就开源社区的商业模式、中国开源市场前景等话题做了交流,以下是对话精华。

-01-

铅笔道:作为AI老兵,是什么样的契机让你要在开源领域再做一家公司?

陈冉:我看到了AI时代开源将迎来颠覆性的机会,值得再创业一次。

工作20年,我一直做开源这件事。我上一家开源公司主要为B端客户提供本土化的代码服务以及数据支持,积累了1600万用户,成了国内最大的开源平台。

Hugging Face是一个优秀的大模型和数据集托管平台,类似于GitHub,但其主要针对科学家、算法工程师,却没有特别大的意愿去做to B生意。

在AI时代,我原先的积累刚好可以填补市场空白。我有搭建超大型线上开源社区的经验,也会做to B的生意,擅长为企业提供本地化服务和私有部署,还有1600万熟悉的用户。这一切要素叠加起来,意味着我可以在AI时代做成中国版“GitLab+Hugging Face”,对开源来说是历史性机会。

铅笔道:创立OpenCSG后,市场需求跟你原先设想的一样吗?

陈冉:基本一致。真正深入到市场后,我很快意识到“降本增效”已经成了大模型的当务之急。

在当下,大家共同面临的是“大模型好像比什么都重要,但无法真正应用到场景中”的困境,一个重要原因就是大模型成本太高。算力、数据处理、算法人才都很贵,OpenCSG初衷就是降低大模型的使用成本和门槛。

OpenCSG这个名字就代表着降本增效的公司理念。C即Converge(集合),代表算力的集合。因为大模型发展的最高优先级是算力,但中国的算力比较分散,因此需要通过高中低配算力——国产算力与国外算力分布式搭配,按需分配算力。

S即Software Refine(软件重塑),软件重塑就是通过大模型去生产代码,因为BAT等大厂把研发人员的工资炒得很高,同时人效很低。我们的理念是用大模型开发代码与交付,在软件定义的层面降本增效,最近刷屏的Starship就是主力产品。

G指Generative(生成式AI)。大模型是未来,但大模型一定要以开源的方式交付给客户,也就是我们所说的Open(开源开放)。国外有Gitlab和Hugging Face这样优秀的开源平台,但中国直到大模型时代,还一直缺这样的平台,这就是OpenCSG的机会。

铅笔道:GitLab已经是全球知名程序员社区,Hugging Face的估值也达到45亿美元,OpenCSG打算怎么走?

陈冉:最终目标肯定是走出去,跟GitLab和Hugging Face在全球竞争,因为中国有全世界最广大、最优质的研发人员,有软件人才基础。

但从更现实角度,当前还是要稳一些,先把用户规模和营收做扎实,再扩大规模。今年我们已经基本营收平衡。

铅笔道:市面上的主流大模型都还没有盈利,OpenCSG是怎么做到的?

陈冉:大模型本身并不值钱,我们把大模型的价值用开源的方式交付给客户,让客户真正为价值付费。

铅笔道:客户付费的点是什么?

陈冉:OpenCSG的商业模式类似于帮助客户搭建专属云,通过订阅付费模式,为客户提供搭建软件架构的能力,帮助客户定制大模型中的“专有云”。

我们有几款主力产品——CSGHub开源模型平台、悟空预训练模型、CSGCoder微调代码模型,以及刷新了大模型编程纪录的StarShip。

同时相比于MaaS(模型即服务)公司只提供开源大模型的接口,我们还会额外提供开源大模型的代码帮助公司进行Fine-tune(微调)和开发。在使用OpenCSG构架服务后,即使是没有开发能力的客户,只需要通过自然语言输入需求,就能快速生成基于大模型的软件。

铅笔道:听起来,OpenCSG要为大量用户做定制化服务,赚的像是份辛苦钱。

陈冉:不辛苦,因为我们是开源的方式,本质上客户自己组装出来的模型。

我们的模式类似于宁德时代做电池,蔚来、理想都可以基于电池做汽车,但电池和中控这样的核心技术是宁德时代自研的。

那OpenCSG已经制订了行业标准,搭好了开源平台,并且有成型产品,B端客户要享受企业级服务,就会付费。至于定制化需求,我们有一大堆合作伙伴,同时是开源协作的方式,只要客户给到核心数据,就能训练出他需要的模型。

-02-

铅笔道:像周鸿祎、杨立昆、朱啸虎等人都认为开源模型才是未来,你怎么看大模型的开源和闭源之争?

陈冉:我觉得开源和闭源之争是商业模式的竞争,就像iOS系统和安卓系统,没有好坏之分,两者也一直是并存的。

只是闭源一般都是某几个大厂在做,开源则强调全球协作,因为参与的人更多,场景越多,产品才能适配更多的人群,是共创共赢的思路。

只是对于中国来说,做开源的优先级一定是要高于闭源。

铅笔道:为什么这么说?

陈冉:因为中国的大多数企业并不具备做闭源的实力,哪有那么多人有钱去搞个闭源模型?还有个关键点,大模型未来的关键节点不是算力,甚至不是模型,而是核心数据集。

由于核心数据集一般在甲方(企业)手里,如果甲方把数据灌到一个商业版闭源模型,那训练出来的模型是归客户还是模型厂商?未来数据归属权和大模型归属权是说不清楚的。客户肯定想模型归自己所有,因为企业数据大多涉及核心机密。

所以我们坚持做CSGHub开源模型平台,为企业提供线上线下一体化服务。企业真正需要的应该是线上线下一体的平台,因为企业数据作为第一要素必须放到线下进行管理。为此,我们坚定做开源模式,让客户自己管理自己的数据资产。

铅笔道:优质的中文数据集数量不足,缺少优质数据是否会制约大模型未来的发展?

陈冉:我告诉你为什么,因为中国在上一个时代的数字化转型走得不通透。中国的互联网时代确实非常辉煌,但恰恰是辉煌“耽误”了一代基础技术的底层构造。因为各家应用公司都想着垄断数据、积累用户,导致开源一直发展不顺。

虽然国内也有很多优秀的开源项目和社区,但相比国际仍有差距。中国的开源文化并未像国际上那么成熟,缺少足够的理解和支持。在商业变现上,国内也没有踏出一条从开源技术孵化到商业变现成功(IPO)的闭环,适应中国国情的开源商业模式一直没有形成。

这些基础技术、软件积累的缺陷会在后期发展越来越被放大,在大模型时代更是如此。为什么我们一直处于追赶,因为任何技术的发展都是有规律的、持续迭代、相互依赖,最终形成新的创新。创新不可能来源于Nowhere,国内缺失了一些开源的环节。

铅笔道:那OpenCSG要走的这条路是不是特别艰险?

陈冉:再早三年这件事我都不愿意干,因为这件事在中国就属于是之前没做的事,你要补漏,所以你说困不困难?非常困难。但这又是创新的必要环节,你必须要做。

我坚定地认为中国需要开源生态,国家和政府也正在出台有利政策支持开源生态的发展,比如十四五规划提倡支持开源。

但开源不是某一家大模型公司能做成的,而需要搭建整个开源生态和社区。所以我只有坚定地做下去,相信总有一天开源生态会迎来爆发,因为开发者都能在社区中获利,就像商户能在淘宝里挣钱了,他们就愿意留在这个社区,你也就成了这个时代的淘宝。

-03-

铅笔道:一开始如何吸引众多开发者到OpenCSG,如何活跃社区?

陈冉:活跃社区有一个专业名词叫“牵引力”,我们主要有三个牵引力。

第一,为用户提供实时可用的算力,OpenCSG在线上的目标人群是研发人员,所以我们有一个算力交易平台,让所有研发人员能以最低成本、最低门槛使用大模型。并通过线上算力的分佣,实现研发人员降本增效,产生更多的agent。

第二,我们提供各种可靠的、可负担的开源模型选择。我们预训练了很多模型,比如悟空模型,还有其他很多开源模型,客户永远能找到量身定做的模型。

第三,我们足够便宜好用。

举个例子,我们很多企业客户实际上并没有额外经费,也不知道如何挑选适合自己的模型,但客户的痛点很明确——降本增效。在OpenCSG,因为有开源代码和预训练模型,客户只需要描述应用需求,OpenCSG就可以完成相应软件的代码生成。例如客户希望开发网站,仅通过描述网站各项功能,相应软件应用即可搭建起来,相比自己组建团队成本自然更低。

这些省下的人力成本,就转变成了给OpenCSG的订阅费。

铅笔道:很多开源社区希望营造一种“人人为我,我为人人”的社区氛围,在OpenCSG是否如此?

陈冉:人人为我,我为人人,这是一种情怀。但开源不是情怀,这是一种商业模式。

开源社区要不然帮别人挣钱,要不然帮别人省钱。社区的繁荣一定由利益驱动,很多人天天讲要做开源的领袖,要为开源文化做贡献,我只能说这是学术思维,更多企业做开源是为了盈利。

铅笔道:在市场竞争上,你担心Hugging Face吗?

陈冉:我一点都不担心Hugging Face。

当Hugging Face还在做线上的时候,我就在提私有的开源大模型托管模式(将技术授权给一家完全独立的本地公司,帮助企业更快更好地开发软件),我等于是在创造用户需求。

并且我已经盈利了,因为我清晰地知道:降本增效就是商业模式。大模型还没商业化,不代表围绕大模型不能产生商业模式——可以衍生出软件订阅、数据集交付、服务、商业版分发等模式。

包括估值,我已经是第三次创业了,我一直认为公司的估值一定要跟收入匹配,没必要为了融资虚估企业估值。还是那句话,客户为产品付费,永远付费的是价值点,那我就给企业客户带来价值,获得收入,稳扎稳打一些。

铅笔道:如果本土互联网大厂也想做跟OpenCSG类似的产品。

陈冉:大厂和创业公司的做法还是有很大不同。OpenCSG从诞生起就是原生的大模型公司,推出的都是基于Git的大模型开源产品,很多大厂尽管重视大模型,但也不可能把其他成熟业务全砍掉,在资源分配上决策就很慢。

铅笔道:在大模型时代,中国打造开源生态的最大困难是什么?

陈冉:懂行的人太少,也缺乏开源成功的案例。上一个时代大家不关注开源生态,起步就很晚。

美国开源做了30多年,诞生了不少百亿美金的独角兽,大批投资人通过投资开源项目赚得盆满钵满。而在中国,时至今日也没有把开源项目做到上市的公司。

但在大模型领域,开源又非常重要,开源关乎商业模式盈利,关乎产业链。所以我们希望成为中国在开源开放领域领先的公司,让更多人看到开源的商业价值。

更新于:5个月前