LongCLIP version for SD2.1？

我目前正尝试将 Long-CLIP 接入到基于 diffusers 的 Stable Diffusion 2.1 管线中。但是，我遇到了一个维度不匹配的问题。
如我们所知，SD 1.5 的 UNet 要求的文本交叉注意力维度是 768（基于 CLIP-ViT-L/14），而 SD 2.1 要求的是 1024（基于 OpenCLIP-ViT/H-14）。团队是否有计划发布一个基于 OpenCLIP-ViT/H 的 Long-CLIP 版本（输出 1024 维度），专门用于适配 SD 2.0/2.1 生态？