灵活视觉变换器(FiT)是一种全新的Transformer架构图像生成模型,专门设计用于创造没有分辨率和宽高比限制的图像。相较于传统将图像视为固定分辨率网格的方法,FiT将图像视为一系列可变大小的图像块(Token)。这种..
VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能..