多模态SVG生成模型StarVector 视觉质量显著增强

2023-12-21 12:02
摘要:StarVector是一种多模态SVG生成模型,该模型有效地集成了代码生成大型语言模型(CodeLLM)和视觉模型,使得能够生成准确表示图像像素的不受限制的SVG。StarVector利用CLIP图像编码器从基于像素的图像中提取出视觉表..

StarVector是一种多模态SVG生成模型,该模型有效地集成了代码生成大型语言模型(CodeLLM)和视觉模型,使得能够生成准确表示图像像素的不受限制的SVG。

StarVector利用CLIP图像编码器从基于像素的图像中提取出视觉表示模块,然后通过适配器将其转换为视觉标记。这些视觉标记预先添加到SVG标记嵌入中,而StarCoder模型使用下一个标记预测对序列进行建模,从而有效地学习对齐标记和代码标记。

论文地址:https://arxiv.org/pdf/2312.11556.pdf

为了评估StarVector的性能,论文引入了SVG-Bench,这是一个用于跨多个数据集和相关指标评估SVG方法的综合基准。在此基准测试中,引入了新颖的数据集,包括SVG-Stack训练(真实世界SVG示例的大型数据集),并使用它来预StarVector作为SVG的大型基础模型。

结果表明,与当前方法相比,视觉质量和复杂性处理有有了显著的增强,引起SVG生成技术的显着进步。因此,StarVector为SVG生成技术带来了新的突破,为网页开发和图形设计领域带来了更多可能性。

更新于:2023-12-21 12:02