科学工具
科学工具让世界更美好
让世界更美好

基于Diffusion Transformer(DiT)的AI图像生成工具 InfiniteYou基于Diffusion Transformer(DiT)的AI图像生成工具 InfiniteYou

InfiniteYou(InfU)是由字节跳动开发的一款基于Diffusion Transformer(DiT)的图像生成框架,能狗在生成和修改图像时保持人物身份的一致性,解决了现有方法在身份相似度、文本-图像对齐、生成质量和美观度方面的不足。

在图像生成领域,如何在保持个人身份特征的同时,根据文本描述生成高质量、多样化的图像,一直是一个技术难题,InfiniteYou通过引入InfuseNet组件,成功解决了这个问题。InfuseNet通过残差连接将身份特征直接注入DiT基础模型,避免修改注意力层可能带来的身份信息损失。定量评估结果显示,InfiniteYou实现了最低的身份损失(ID Loss)。

文本-图像对齐

InfiniteYou采用多阶段训练策略,特别是使用高质量的单人多样本(SPMS)数据进行监督微调,提高了生成图像与文本描述的对应关系,在CLIP分数(CLIPScore)上,InfiniteYou取得很高的分数,在文本-图像对齐方面表现非常优秀。

生成质量

借助先进的DiT基础模型FLUX和精细的多阶段训练,InfiniteYou生成的图像在细节、清晰度和美观度方面均超越了现有基线模型,在挑选分数(PickScore)上,InfiniteYou获得了最佳表现。

缓解面部复制粘贴问题

相比一些现有方法(如PuLID-FLUX),InfiniteYou能够更好地根据文本提示生成具有真实感的面部,减少了直接复制粘贴人脸的问题,让生成的图像更加自然和真实。

即插即用

InfiniteYou采用即插即用设计,可以与多种现有方法和工具兼容,可以自然地支持替换基础模型为FLUX.1-dev的其他变体(如FLUX.1-schnell以实现更高效的生成)。InfiniteYou兼容ControlNets和LoRAs,为定制任务提供更加灵活的解决方案。InfiniteYou与OminiControl的兼容性增加了在多概念个性化方面的潜力,虽然将IP-Adapter直接用于身份注入并非最优,但InfiniteYou仍然可以与IP-Adapter兼容,用以实现个性化图像的风格化。

优化建议

为了更好地使用InfiniteYou,以下是一些优化建议:

1、模型选择:InfiniteYou提供了两个模型变体,aes_stage2sim_stage1aes_stage2适用于更好的文本-图像对齐和美观度,sim_stage1适用于更高的身份相似性。

2、参数调整:通过调整--infusenet_conditioning_scale--infusenet_guidance_start参数,可以进一步优化生成效果。增加--infusenet_guidance_start(例如0.1)可以提升身份相似性,减小--infusenet_conditioning_scale(例如0.9)可以改善生成质量。

3、LoRA应用:InfiniteYou兼容LoRAs(如Realism和Anti-blur),可以增加生成图像的灵活性和可控性。

训练策略

1、初始阶段:强化身份特征提取

2、中间阶段:优化纹理细节表现

3、最终阶段:对抗训练消除畸变

使用场景

商业应用 虚拟形象批量生成

产品模特多造型输出

影视角色预可视化

开发集成

from diffusers import FluxDiffusionPipeline
pipeline = FluxDiffusionPipeline.from_pretrained(
    "ByteDance/InfiniteYou",
    torch_dtype=torch.float16
)