马毅团队新研究:微调多模态大模型会灾难性遗忘

2023-09-28 12:14

要点:1. 马毅团队提出了EMT框架,评估微调后的多模态大模型(MLLM)的灾难性遗忘。2. 实验表明,微调MLLM在提升微调数据集性能的同时,也导致其他数据集性能下降。3. 微调过程中,MLLM会产生与微调数据集相关的幻觉..

多模态大模型KOSMOS-2.5 擅长处理文本密集图像

2023-09-28 13:30

随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。论文地址:https://arxiv.org/abs/2309.11419KOSMOS-2.5基于KOS..

字节推多模态理解和图像定位模型LEGO 具备精准定位的能力

2024-01-15 13:04

LEGO是一个由字节跳动和复旦大学联合研发的多模态理解和图像定位模型。这一模型具有处理和理解多种类型的输入的能力,包括图像、音频和视频。同时,LEGO还具备精准定位的能力,能够在图像中标识出物体的具体位置,在..

百度推多模态模型UNIMO-G 支持还原图片ID

2024-01-26 13:01

核心要点:百度提出了UNIMO-G统一图像生成框架,通过多模态条件扩散实现文本到图像生成,克服了文本描述简洁性对生成复杂细节图像的挑战。UNIMO-G包含多模态大语言模型(MLLM)和基于编码的多模态输入生成图像的条件..

微信二维码