自回归模型BLOOMZ来了!性能时延仅3.7秒,推理变得更容易了!
2023-08-25 13:20
摘要:文章要点:BLOOMZ是拥有1760亿参数的大规模语言模型,在Habana Gaudi®2硬件上进行推理时延仅3.7秒。Habana Gaudi®2具有强大的计算能力和内存容量,可支持大模型的训练和推理。利用DeepSpeed的模型并行技术,可以在..
文章要点:
BLOOMZ是拥有1760亿参数的大规模语言模型,在Habana Gaudi®2硬件上进行推理时延仅3.7秒。
Habana Gaudi®2具有强大的计算能力和内存容量,可支持大模型的训练和推理。
利用DeepSpeed的模型并行技术,可以在多台Gaudi®2设备上分布一个极大规模的模型进行推理。
最近,Anthropic公司开源了语言理解模型BLOOMZ,它拥有高达1760亿个参数,是目前公开的参数量最大的语言模型之一。以这种规模的模型进行推理,对硬件的算力和内存提出了极高的要求。
论文地址:https://arxiv.org/abs/2211.05100
Habana Labs推出的第二代AI芯片Gaudi®2在此方面具有独特优势。单块Gaudi®2芯片就具有96GB内存,8块芯片可以组成一个服务器,提供768GB的总内存。Habana自主研发的SynapseAI软件栈可以将模型有效分配到多块芯片上,实现模型并行。
Hugging Face的工程师使用Gaudi®2对BLOOMZ模型进行了测试。结果显示,在8块芯片上以16位浮点精度进行推理,延迟只有3.7秒,达到了接近实时的速度。相比之下,在第一代Gaudi芯片上推理需时20秒。Habana团队表示,通过持续优化,有望进一步提升BLOOMZ的推理性能。
Gaudi®2芯片强大的算力和巨大的内存,配合Habana自主研发的SynapseAI软件栈,可以轻松支持千亿级参数的语言模型进行实时推理。这为大模型的实际应用带来了新的可能性。未来Habana计划支持更低精度的推理,以进一步提升性能并降低功耗。
更新于:2023-08-25 13:20