SAM模型加速变体EdgeSAM 比原始SAM提速40倍

2023-12-14 12:02
摘要:EdgeSAM是一个优化过的SAM变体,相比原始SAM实现了40倍的速度提升,对性能的影响较小,可以在iPhone14上以30帧每秒的速度运行。该方法将原始的基于ViT的SAM图像编码器提炼成纯CNN架构,更适合边缘设备。通过仔细评估..

EdgeSAM是一个优化过的SAM变体,相比原始SAM实现了40倍的速度提升,对性能的影响较小,可以在iPhone14上以30帧每秒的速度运行。

该方法将原始的基于ViT的SAM图像编码器提炼成纯CNN架构,更适合边缘设备。通过仔细评估各种提炼策略,研究人员证明了任务不可知的编码器提炼无法捕捉SAM所蕴含的全部知识。

地址:https://mmlab-ntu.github.io/project/edgesam/

为了克服这一瓶颈,他们在提炼过程中包括了提示编码器和蒙版解码器,循环中还有框和点提示,以便提炼模型能够准确捕捉用户输入和蒙版生成之间的复杂动态。此外,为了减轻点提示提炼带来的数据集偏差问题,研究人员在编码器中加入了一个轻量级模块。

关键的见解是在知识蒸馏过程中考虑提示,以便学生模型接收任务特定的指导,并专注于更难的训练目标,比如更精细的边界。

为此,引入了一种动态提示采样策略,旨在实现三个关键目标:从初始提示(无论是框还是点)动态生成多样化的提示组合,准确识别学生模型在掩模内表现不准确的区域,从而引导其专注于这些特定的部分,并促使教师模型,即SAM,产生更高质量的掩模,以提供更精确的指导。

更新于:11个月前