谷歌发布 MediaPipe Diffusion 插件

35小吃技术网 推荐阅读 2023年09月25日21时57分54秒 89 0

近年来,扩散模型在文本到图像的生成方面取得了巨大成功,实现了更高的图像生成质量,提高了推理性网能,还可以激发扩展的创作灵感。

然而,仅仅通过文本控制图像的生成往往无法达到预期的效果,比如具体的人物姿势、面部表情等,很难用文本来指定。

最近,谷歌发布了插件,可在移动设备上运行“可控文本到图像生成”的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体。

背景知识

谷歌发布 MediaPipe Diffusion 插件-第1张图片

基于扩散模型的图像生成过程可以被认为是一个迭代的去噪过程。

从噪声图像开始,在每一步中,扩散模型都会逐渐对图像进行去噪,以生成符合目标概念的图像,并且使用文本提示作为条件可以大大提高图像生成的效果。

对于文本到图像的生成,文本嵌入通过交叉注意层连接到图像生成模型,但仍然有一些信息难以通过文本线索描述,例如对象的位置和姿势等。

为了解决这个问题,研究人员建议引入额外的模型来添加到扩散模型中,在条件图像中注入控制信息。

控制文森图的常用方法包括:

1、Plug-and-Play采用去噪扩散隐式模型(DDIM)方法,从输入图像开始反转生成过程得出初始噪声输入,然后采用扩散模型(0.5的情况下需要860)百万个参数)对输入图像的条件进行编码。

即插即用从复制的扩散中提取具有自注意力的空间特征,并将其注入到文本到图像的扩散过程中。

2. 创建扩散模型编码器的可训练副本,它对零初始化参数后通过卷积层连接传递到解码器层的条件信息进行编码。

3. T2I是一个较小的网络(7700万个参数),在可控生成中实现了类似的效果,只需要条件图像作为输入,其输出在所有扩散迭代中共享。

然而,T2I 适配器模型并不是为便携式移动设备设计的。

插入

为了使条件生成更加高效、可定制和可扩展,研究人员将 插件设计为一个单独的网络:

1. ():可以方便地与预训练的基础模型连接;

2. 从头开始​​训练(from):不使用基础模型中预先网训练的权重;

3.可移植性():基础模型可以在移动设备上运行,推理成本相对于原始模型可以忽略不计。

即插即用、T2I 适配器和扩散插入件的比较,* 数字可能因所选型号而异

简单来说,插件是一个文本到图像生成的模型,可以在便携式设备上运行,从条件图像中提取多尺度特征,并将其添加到相应分层模型的编码器中; 当连接到 时,与图扩散模型一样,插件模型可以为图像生成提供额外的调节信号。

该插件网络是一个轻量级模型,只有 600 万个参网数,使用深度卷积和逆瓶颈 ( ) 来实现在移动设备上的快速推理。

扩散模型插件是一个单独的网络,其输出可以插入到预训练的文本到图像生成模型中,并将提取的特征应用于扩散模型(蓝色)的相关下采样层。

与 不同的是,研究人员在所有扩散迭代中注入相同的控制函数,因此该插件只需要在图像生成过程中运行一次,从而节省了计算量。

从下面的例子可以看出,控制效果在每个扩散步骤都是有效的,即使在早期迭代中也可以控制生成过程; 更多迭代可以改善图像与文本提示的对齐并生成更多细节。

使用 插件的构建过程演示示例

在这项工作中,研究人员开发了一种基于扩散的文本到图像生成模型,其中包含面部、深度图和 Canny 边缘的插件。

对于每个任务,从非常大规模的图像文本数据集中选择大约100,000张图像,并使用相应的解决方案来计算控制信号,并使用PaLI优化的描述来训练插件。

Face 任务计算 478 个面孔(带有注意力)。

研究人员使用其中的utils来渲染人脸,包括面部轮廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的颜色来表示它们。

下面的例子展示了通过调整面部网格和提示随机生成的样本; 相比之下,两者都可以在给定条件下控制文本到图像的生成。

用于生成文本到图像的 Face-,与 .

任务包括身体姿势、手部和面部网格,它们可以通过调制整体特征来生成各种风格化图像。

用于生成文本到图像的插件。

谷歌发布 MediaPipe Diffusion 插件-第2张图片

深度

深度插件的文本到图像生成。

精明的边缘

Canny-edge 插件,用于将文本生成图像。评估

研究人员对人脸插件进行了定量评估,以展示模型的性能。 评估数据集包含5000张人类图像,使用的评估指标包括Frchet起始距离(FID)和CLIP分数。

基础模型使用预训练的文本到图像扩散模型 v1.5

FID、CLIP 和推理时间的定量比较

从实验结果中的FID和CLIP分数来看,和扩散插件生成的样本质量比基础模型要好得多。

与 不同的是,插件模型只需要为每个生成的图像运行一次,并且不需要在每个去噪步骤中运行,因此推理时间仅增加了 2.6%。

研究人员在服务器机器(使用 V100 GPU)和移动设备(S23)上测量了三个模型的性能:在服务器上,所有三个模型都使用 50 个扩散步骤运行;在服务器上,所有三个模型都使用 50 个扩散步骤运行。 在移动设备上,使用图像生成应用程序 该程序运行 20 个扩散步骤。

与 相比,该插件在保持样本质量的同时,在推理效率上表现出明显的优势。

不同移动设备上插件的推理时间(ms)汇总

在这项工作中,研究人员提出了一种适合移动设备的条件文本到图像生成插件,将从条件图像中提取的特征注入到扩散模型中,以控制图像生成过程。

便携式插件可以连接到在服务器或设备上运行的预先训练的扩散模型,通过完全在设备上运行文本到图像生成和插件来实现更灵活的生成人工智能应用

参考:

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。