要点:1. 马毅团队提出了EMT框架,评估微调后的多模态大模型(MLLM)的灾难性遗忘。2. 实验表明,微调MLLM在提升微调数据集性能的同时,也导致其他数据集性能下降。3. 微调过程中,MLLM会产生与微调数据集相关的幻觉..
随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。论文地址:https://arxiv.org/abs/2309.11419KOSMOS-2.5基于KOS..