Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

来源：站长之家　2023-07-03 18:01:26

(资料图)

编程客栈() 7月3日消息:Diffusion 模型近年来在文本到图像生成方面得到广泛应用，并取得了显著的成功，从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而，在难以用文字明确定义的条件下，有效的生成管理仍然是一个挑战。

由谷歌研究人员开发的 MediaPipe Diffusion 插件使得用户可以在设备上执行文本到图像的生成，并进行用户控制。在这项研究中，谷歌延伸了之前关于设备上大型生成模型的 GPU 推理的工作，提出了低成本的可编程文本到图像创建解决方案，可以集成到现有的 Diffusion 模型及其 LoRA 变体中。

Diffusion 模型中模拟了迭代去噪的图像生成过程。Diffusion 模型的每一BNgCHBucf次迭代都以受噪声污染的图像开javascript始，并以目标概念的图像结束。通过文本提示的语言理解极大地增强了图像生成过程。文本嵌入通过交叉注意力层与文本到图像生成模型关联起来。然而，物体的位置和姿态等细节可能更难以通过文本提示传达。研究人员通过额外的模型将条件图像中的控制信息引入到 Diffusion 中。

Plug-and-Play、ControlNet 和 T2I Adapter 方法经常用于生成受控的文本到图像输出。Plug-and-Play 使用 Diffusion 模型的副本（Stable Diffusion1.5 版本的 860M 参数）和广泛使用的去噪 Diffusion 隐式模型（DDIM）反演方法BNgCHBucf来从输入图像中推导出初始噪声输入。

通过自注意力从复制的 Diffusion 中提取空间特征，并使用 Plug-and-Play 将其注入到文本到图像 Diffusion 中。ControlNet 构建了 Diffusion 模型编码器的可训练副本，并通过一个带有零初始化参数的卷积层连接到编码条件信息，然后传递给解码器层。不幸的是，这导致了模型的显著增大，Stable Diffusion1.5 版本的参数约为 4.5 亿个，相当于 Diffusion 模型本身的一半。T2I Adapter 在较小的网络（77M 参数）下实现了可比较的受控生成结果。条件图像是 T2I Adapter 的唯一输入，其结果被用于所有后续的 Diffusion 周期。然而，这种适配器样式不适用于移动设备。

MediaPipe Diffusion 插件是谷歌开发的一个独立网络，旨在使条件生成变得高效、灵活和可扩展。

作为一种便携式的设备上文本到图像创建范式，MediaPipe Diffusion 插件可以免费下载使用。它接收一个条件图像，并通过多尺度特征提取将特征添加到 Diffusion 模型的编码器中的适当尺度上。

当与文本到图像 Diffusion 模型结合使用python时，插件模型将一个条件信号添加到图像生成过程中。谷歌希望插件网络只有 600 万个参数，使其成为一个相对简单的模型。

MediaPipepython：https://developers.google.com/mediapipe

推荐DIY文章