AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种

2024-09-22 12:22
摘要:两个AI现场攻防,翻车了人类就在旁边“蛐蛐”。现在的AI比赛真是越来越因吹斯汀了。这不,一个拿着“花开富贵”大姨人设的Agent直接甩了个链接,对面的AI客服就开始大段大段冗长回复,几个回合都是如此。围观人类一..

两个AI现场攻防,翻车了人类就在旁边“蛐蛐”。

现在的AI比赛真是越来越因吹斯汀了。

这不,一个拿着“花开富贵”大姨人设的Agent直接甩了个链接,对面的AI客服就开始大段大段冗长回复,几个回合都是如此。

围观人类一点儿都不留情面,马上锐评:

我都看不下去这么长的回复,不擅长网购的“阿姨”能有这样的耐心?可能看不到一半就走了。

遇到妙语连珠的,人类也纷纷爆灯。

还是这个“阿姨”人设的Agent,她打了个错别字,问AI“九空”是什么意思。

对方AI客服立马发现它想说的其实是“九腔”,还给出了正确的解释。

在云栖大会现场,我们围观了这样一场精彩有趣的AI比赛。

比赛规则是让8家企业在一周内构建智能客服,不仅要现场展示效果和技术方案,还要接受各种人设Agent的情景考验。都是难以应对的那种,要么是不会网购且爱打错别字的阿姨,要么是正在气头上的都市丽人。

结果就上演了刚刚那精彩一幕。

更有意思的是,还有选手找公司财务搞定了这一项目。

要知道,他的对手都是业内颇有来头的企业,不乏已经上市的那种。

所以,这到底是个啥比赛啊?

1周搞定“说人话”AI客服

如上提到的比赛,是业界首个企业级AI应用开发挑战赛:百炼杯“智能好客服”PK赛。

为啥能称得上企业级?

不仅参赛选手都是企业,而且比赛重要的参考维度是能否实际落地

比赛为选手提供百炼开发平台,可使用通义千问系列模型作为底层模型,平台提供Prompt优化工具、RAG、Agent构建等能力,支持低代码、高代码等不同需求开发。

对参赛作品的要求很简洁,就是打造一个满足现在用户需求的智能客服。能理解用户问题、结合上下文给出解决办法,并且有情商、说人话、能面对各种复杂情景。

而且上手门槛很低

比如参赛选手云蝠智能,他们的主打业务是电话客服,在文本客服方面的积累不多。这次参赛,他们压根没让工程师参与,而是找公司财务完成了整个业务流程的交付。

从Qwen Max的学习引擎到数据规范、再到提示词调优,我就手把手教了他20分钟

之所以这样做,是因为云蝠智能认为智能客服产品的最终用户很多都是小型或中小型企业,他们对于无代码、低代码开发的需求很高。他们这么做也是进一步验证,如今的大模型平台已经可以提供零门槛的智能客服构建流程。

另一位参赛选手合力亿捷也提到,职场新人通过1-2天的学习,就能在百炼平台上自己开发Agent。

比如打造一个电商客服,具体技术方案如下:

用户输入问题后,通义千问会先进行意图理解和分类,然后系统将提取关键数据并调用API,再利用RAG技术进行知识检索,最后把经过封装的Prompt提交给通义千问大模型,最后生成答案给客户。

根据比赛数据的多场景特性,拆解了应答服务流程。按照场景特征将意图与知识细分为8大类和若干小类。

合力亿捷介绍,开发过程中也遇到了一些问题。一开始完全依赖百炼平台的输出能力进行意图分类,但是在上下文意图不连贯的时候,就会出现分类和输出不稳定的情况。为此选手对提示词进行优化,强调关键特征和要求。

经过三次迭代后,回复准确率从最初的80%提升到了96%

要知道,这解决了目前智能客服行业面临的很多挑战。

智能客服作为一个普及度非常高的AI应用,大众满意度却不尽如人意。大家都调侃,AI客服的作用就是为了“转人工”。

这一方面是因为传统AI客服的底层技术不够先进,导致回复比较机械化,不能满足人类真正的服务需求,也缺乏情感价值。

参赛选手亚信科技解释,用户对于智能客服的期待是“像真人交谈一样自然”。这背后需要智能客服可以理解用户意图、懂得结合上下文语境、提供个性化的建议。

随着大模型趋势到来,底层技术瓶颈得到进一步改善。

但是企业用上大模型开发智能客服,还存在诸多门槛。

合力亿捷提到,通用模型需要进一步微调才能满足个性化需求。但实际情况中,往往是懂开发的人不懂业务,懂业务的人不懂开发。

而且本身智能客服给大模型提出的要求也很高。需要精准理解用户意图、强大的上下文能力、可以调用工具等。模型生成的内容也要与时俱进,数据库更新不及时也会导致理解和识别准确率降低。

这意味着企业自己做模型开发的门槛和成本都很高。加之智能客服领域本身竞争激烈、收益比较低,企业面临的智能化升级压力很大。

不过随着大模型开发平台不断升级完善,云厂商们为企业们提供了更便捷的工具。

这次PK赛中,选手们就是完全利用百炼平台进行开发。

其中一些功能都给选手留下了深刻印象。比如亚信科技和合力亿捷都提到了工作流应用。它无需通过构建智能体实现工作流,能让应用调试、修改Prompt等都变得更方便,而且执行效率稳定,性能可靠。

本次比赛的主题智能客服,只是百炼平台典型应用场景之一。

阿里云披露,今年5-7月,百炼服务客户数量快速从9万增长至23万,涨幅超150%。

AI应用开发,拖拉拽即可

去年10月,阿里云发布了百炼大模型平台,主要功能就是让开发者通过简单的拖拉拽,在5分钟开发一款大模型应用,几小时炼出一个专属模型。

今年5月,百炼升级为2.0版本,成为阿里云承载云+AI能力的重要平台,提供一站式、全托管的大模型定制与应用服务。

它可分为计算层、模型层和应用层。

底层计算依托于强大阿里云基础设施。

刚刚结束的云栖大会上,阿里云CTO周靖人宣布,阿里云全面投入升级AI大基建,AI驱动的全系产品家族完成升级。包括磐久AI服务器、HPN7.0高性能网络架构等,都为AI训练、推理、部署和应用更高效而来。

模型层提供通义系列、行业大模型以及丰富第三方模型(如Llama、百川等)。

支持多模态模型服务,提供灵活高效易用的模型API与SDK。提供文本生成、图片生成、视觉理解、视频生成、语音识别以及语音合成能力。

最新进展中,通义方面发布了最强开源模型Qwen2.5系列,同时上架语言、音频、视觉等100多款全模态模型。

应用层方面,百炼提供开放的Agent构建框架,支持灵活的应用编排能力。构建了丰富的模型应用生态,比如智能座舱、智能客服、智能零售、AI数字人等。

主要支持的开发范式有三种:

提示词优化:提示词扩写、案例优化、反馈优化。

检索增强生成(RAG):企业级知识管理、灵活优化各组件效果。

模型微调:多模态模型微调、多类型微调方式。

并且提供多款开箱即用的AI原生应用。

比如智能客服大模型应用晓蜜、多模态内容创作工具全妙、AI原生智能数据分析产品析言GBI等。

而且基于阿里云深厚的云计算基础,百炼可以提供更加高效、稳定、极具性价比的大模型服务。

没有AI的应用没有竞争力

最后,回到这场PK赛本身,为啥阿里云想要办一场智能客服挑战赛?

其实,早在大模型掀起技术风暴之前,AI客服就是NLP相关研究的应用重点:

一方面,客服是信息时代每个企业、每个人都会接触到、有需求的场景。另一方面,这种大量、高重复度场景,恰恰是AI技术能最快见效的应用领域。

而当大模型完全改变了人机交互的模式和对话生成的质量,AI客服也自然而然迎来质变时刻,成为大模型应用落地最好的试验田之一。

IDC报告《中国智能客服市场份额,2023:新旧交替,增长可期》中显示,2023年智能客服解决方案整体市场规模达到了30.8亿人民币,较2022年增长了近36.9%,足见其发展潜力。

但在“骇客松”这种以赛代练文化盛行的科技领域,阿里云百炼杯之前,却未见真正定位“企业级”、强调“落地可用”的AI应用开发挑战赛。

其中挑战亦不难理解:

要拉来这么多具有代表性的企业过过手见见技术真章,主办方本身需要具备行业号召力,并且能够提供客观、可靠的基础平台。

阿里云作为国内云厂商中的头把交椅,本身过硬的云计算基础能力和行业影响力自不必说。

现在,依托百炼平台,阿里云进一步提供了大模型企业级应用开发的一站式服务能力:以模型为中心,依据大模型真实业务落地需要,提供模型、应用、数据、运营四大核心工具链,帮助企业实现“小步快跑的业务验证”和“规模业务的迭代优化”。

从本次挑战赛中也可以看出,大量难以处理的情绪化、复杂上下文、逻辑推导、业务引导、体系计算等问题,企业都能通过结合模型和百炼平台的能力解决。

对于参赛企业而言,参与这样的比赛,能积累大模型应用的落地经验,验证自身对于业务场景与大模型结合的理解。

而对于阿里云来说,在为参赛企业提供支持的同时,也进一步加深了对实际业务场景的了解,为通过技术发展驱动大模型应用落地积攒实践经历。

事实上,从“智能客服”一隅,亦可再次窥见大模型时代各行各业面临的一个新机遇和新挑战:

随着技术变革程度的不断加深,在未来,没有AI的应用就没有竞争力。

而这一课题所涉及的,不仅是应用层面的创意和技术创新,更是基础设施的迭代升级。

云时代里走在前列的阿里云,这一次又踏在了潮头。

更新于:2个月前