我目前正尝试将 Long-CLIP 接入到基于 diffusers 的 Stable Diffusion 2.1 管线中。但是,我遇到了一个维度不匹配的问题。
如我们所知,SD 1.5 的 UNet 要求的文本交叉注意力维度是 768(基于 CLIP-ViT-L/14),而 SD 2.1 要求的是 1024(基于 OpenCLIP-ViT/H-14)。团队是否有计划发布一个基于 OpenCLIP-ViT/H 的 Long-CLIP 版本(输出 1024 维度),专门用于适配 SD 2.0/2.1 生态?
我目前正尝试将 Long-CLIP 接入到基于 diffusers 的 Stable Diffusion 2.1 管线中。但是,我遇到了一个维度不匹配的问题。
如我们所知,SD 1.5 的 UNet 要求的文本交叉注意力维度是 768(基于 CLIP-ViT-L/14),而 SD 2.1 要求的是 1024(基于 OpenCLIP-ViT/H-14)。团队是否有计划发布一个基于 OpenCLIP-ViT/H 的 Long-CLIP 版本(输出 1024 维度),专门用于适配 SD 2.0/2.1 生态?