开源LLM部署框架FlexFlow:低延迟、高性能

2023-08-23 12:43

FlexFlow 是一个分布式深度学习框架,提供低延迟、高性能的 LLM(Large Language Model)模型服务。它通过使用推测性推理和树状并行解码技术,显著提高了 LLM 模型的服务速度。项目地址:https://github.com/flexflow..

中国科学院团队首篇LLM模型压缩综述:细聊剪枝、知识蒸馏、量化技术

2023-08-27 13:41

随着 LLM 的突破性工作逐渐放缓,对于如何让更多人使用 LLM 成为时下热门的研究方向,模型压缩可能是 LLM 未来的一个出路。此前 OpenAI 首席科学家 Ilya Sutskever 表示可以通过压缩的视角来看待无监督学习。本文首..

LangFuse:为LLM应用设计的开源可观察性和分析解决方案

2023-08-31 13:28

LangFuse 是一种专门为低延迟消息(LLM)应用设计的开源可观察性和分析解决方案。它的主要用途是用于生产环境,但也有一些用户在本地开发 LLM 应用时使用。LangFuse 的主要目标是提供实时的、深入的、可操作的见解,..

Datasaur推出LLM实验室,助力企业构建自定义AI应用

2023-10-27 12:21

要点:Datasaur推出LLM Lab,帮助企业构建类似ChatGPT的自定义大型语言模型应用,提供全方位界面,从数据收集到模型选择和性能优化。LLM Lab使企业能够在云端或本地部署上构建内部自定义生成式AI应用,同时减少了来自..

Cohere 推出适用于企业LLM应用的Embed V3

2023-11-03 12:49

要点:Cohere推出Embed V3,这是其嵌入模型的最新版本,旨在帮助企业构建大型语言模型(LLM)应用程序,具有增强的数据压缩功能。Embed V3在语义搜索和利用大型语言模型(LLMs)的应用程序方面与OpenAI的Ada和各种开..

李开复估值10亿美元的LLM创业公司推出开源模型Yi-34B

2023-11-06 14:02

要点:中国计算机科学家李开复创办了01.AI,旨在为中国市场开发本土大型语言模型,以满足中国对开放AI的需求。01.AI在成立七个月后发布了其首个开源语言模型Yi-34B,拥有340亿参数,表现卓越,引起了广泛关注。01.AI..

深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞

2023-11-22 13:34

要点:大语言模型(LLM)在各应用中成功,但容易受到Prompt诱导越过安全防护,即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception,通过深度催眠LLM使其越狱,并规避内置安全防护。利用LLM的人格..

田渊栋团队最新论文解决大模型部署难题 推理系统吞吐量提高近30倍!

2023-12-07 13:10

田渊栋团队最新发表的论文解决了大型语言模型在实际部署中遇到的内存和输入长度限制的问题,将推理系统的吞吐量提高了近30倍。论文提出了一种实现KV缓存的新方法,通过识别和保留重要的tokens,显著减少了内存占用,..

苹果最新研究:将有限内存推理速度提高25倍

2023-12-21 12:20

近年来,大型语言模型(LLMs)在自然语言处理任务中表现卓越,但其对计算和内存的高需求对于内存有限的设备构成了挑战。本文提出了一种在设备内存有限的情况下,通过将模型参数存储在闪存中,并在推断时按需将其加载..

UIUC华人团队揭秘代码集成到LLM训练数据中的好处

2024-01-29 12:37

要点:1. 代码预训练提升LLM在推理能力上的表现,能应用于更复杂的自然语言任务。2. 代码生成结构化的中间步骤,可以通过函数调用连接到外部执行终端。3. 利用代码编译和执行环境提供了更多样化的反馈信号,为模型的..

微信二维码