Skip to content

LongCLIP version for SD2.1? #112

@likeatingcake

Description

@likeatingcake

我目前正尝试将 Long-CLIP 接入到基于 diffusers 的 Stable Diffusion 2.1 管线中。但是,我遇到了一个维度不匹配的问题。
如我们所知,SD 1.5 的 UNet 要求的文本交叉注意力维度是 768(基于 CLIP-ViT-L/14),而 SD 2.1 要求的是 1024(基于 OpenCLIP-ViT/H-14)。团队是否有计划发布一个基于 OpenCLIP-ViT/H 的 Long-CLIP 版本(输出 1024 维度),专门用于适配 SD 2.0/2.1 生态?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions