SQLCoder:将自然语言问题转化为 SQL 查询的先进模型

2023-08-23 12:14

SQLCoder 是由 Defog.ai 开发的一款先进模型,用于将自然语言问题转化为数据库查询。它在通用 SQL 架构中表现出色,并且在针对特定数据库架构进行优化时,性能超过了 gpt-4。项目地址:https://github.com/defog-ai/s..

自回归模型BLOOMZ来了!性能时延仅3.7秒,推理变得更容易了!

2023-08-25 13:20

文章要点:BLOOMZ是拥有1760亿参数的大规模语言模型,在Habana Gaudi®2硬件上进行推理时延仅3.7秒。Habana Gaudi®2具有强大的计算能力和内存容量,可支持大模型的训练和推理。利用DeepSpeed的模型并行技术,可以在..

CatBERTa:一种基于 Transformer 的AI模型 能够处理人类可理解的文本数据

2023-09-08 13:09

CatBERTa 是一种基于 Transformer 的人工智能模型,旨在通过文本输入进行能量预测。该模型建立在预训练的 Transformer 编码器之上,这是一种在自然语言处理任务中表现出色的深度学习模型。CatBERTa 的独特之处在于它..

Oracle 在 Nvidia AI 中循环进行端到端模型开发

2023-10-22 12:34

Nvidia 的 AI 企业软件和 DGX 云已在 Oracle 云市场上推出了两个专用应用程序。通过这一合作,Oracle 客户可以直接从市场购买 Nvidia 的 AI 技术,并在 Oracle 云基础设施上训练模型。Nvidia 的 DGX 云是一个 AI 训..

PyTorch团队重写Meta“分割一切”模型 性能提速8倍

2023-11-22 13:19

要点:PyTorch团队通过对Meta的「分割一切」(SAM)模型进行重写,使其在原始实现的基础上提速8倍,同时保持准确率。优化方法包括采用PyTorch原生特性如Torch.compile、GPU量化、SDPA等,以及使用半精度(bfloat16)..

解读1秒生成高精准图片模型——SDXL Turbo

2023-12-23 13:57

前不久,著名开源生成式AI平台Stability.ai发布了,全新文生图模型SDXL Turbo。该模型只需1秒甚至更少的时间就能生成高精准图片,可将通常50个生成步降至1—4步。Stability.ai表示,SDXL Turbo能有如此快的推理效率..

Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等

2024-02-02 12:29

Allen人工智能研究机构在Hugging Face和GitHub上发布了首个开放语言模型OLMo,意在通过提供数据、代码、模型和评估工具的开放访问,促进人工智能领域的共同研究。这一举措的首批模型包括7B和1B规模的变体,覆盖不同..

Yi Tay官宣新模型Reka Flash 性能媲美Gemini Pro

2024-02-14 12:52

要点:前谷歌科学家Yi Tay领导的团队发布了21B的多模态语言模型Reka Flash,性能媲美Gemini Pro和GPT-3.5。Reka Flash在多语言推理和视觉基准测试中表现出色,优于其他大型模型。Reka Edge是一个更紧凑的7B模型,适用..

超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛超越99.8%选手

2024-09-17 12:25

o1模型已经强到,能够直出博士论文代码了!来自加州大学欧文分校(UCI)的物理学博士Kyle Kabasares,实测o1preview+mini后发现:自己肝了大约1年的博士代码,o1竟在1小时内完成了。他称,在大约6次提示后,o1便创建了..

微信二维码