Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等

2024-02-02 12:29

默认

摘要：Allen人工智能研究机构在Hugging Face和GitHub上发布了首个开放语言模型OLMo，意在通过提供数据、代码、模型和评估工具的开放访问，促进人工智能领域的共同研究。这一举措的首批模型包括7B和1B规模的变体，覆盖不同..

Allen人工智能研究机构在Hugging Face和GitHub上发布了首个开放语言模型OLMo，意在通过提供数据、代码、模型和评估工具的开放访问，促进人工智能领域的共同研究。

这一举措的首批模型包括7B和1B规模的变体，覆盖不同架构和训练硬件，为未来更大规模、指令调整等模型的发布奠定基础。每个模型都提供全面的训练数据、权重、代码和评估工具，并在Apache2.0许可证下发布，鼓励合作构建全球最佳的开放语言模型。

截图来自官方

为了创建强大的开放模型，A12在设计中吸取了多个开放和部分开放模型的经验教训，包括EleutherAI的Pythia Suite、MosaicML的MPT模型、TII的Falcon模型和Meta的Llama系列。

对OLMo7B型号进行的评估显示，在生成任务和阅读理解上，它在许多任务上领先于Llama2，但在一些流行的问答任务上略显落后。通过与不同模型进行比较，OLMo展现出自己的优势和劣势，成为Llama2等流行模型的有力替代品。

在技术方面，OLMo的架构遵循了最新文献的趋势，包括不使用偏差、SwiGLU激活函数、Rotary位置嵌入（RoPE）等。通过一系列实验和调整，AI2发布了OLMo的第一个版本，并鼓励阅读技术报告以深入了解模型架构和培训方法。

未来，A12计划在OLMo家族中推出不同模型尺寸、模态、数据集、安全措施和评估方法，以共同构建全球最佳的开放语言模型。

OLMo的推出标志着AI2在开放研究领域的重要一步，其框架和模型的开放性为学者和研究人员提供了广泛的研究问题，推动了人工智能领域的不断发展。通过提供权重的开放访问，并鼓励合作，Allen致力于共同构建全球最卓越的开放语言模型，助力人工智能技术的进步。

更新于：10个月前

相关文章