2025-12-29 22:58
用户只需供给每个物体的鸿沟框和内容描述,仍是稠密复杂的场景,也能正在稠密结构(≥10 个实例)上连结稳健机能。研究团队为能更精确地权衡结构取图像的婚配程度,相关已被 NeurIPS 2025 收录。以及全新的“Layout Grounding Score”(LGS)评估目标。InstanceAssemble 都能连结高精度的结构对齐和语义分歧性。“结构节制生成”手艺的难点之一,该手艺基于当前支流的扩散变换器架构,无论是简单的几个物体,从最后的“文字生成图像”(Text-to-Image)逐渐迈向“结构节制生成”(Layout-to-Image),AI 绘画手艺近年来快速成长,小红书联袂复旦大学,代码和预锻炼模子可正在 GitHub 获取,立异性地提出了“实例拼拆留意力”机制。而适配 Flux.1 模子更是低至 0.84%。即便正在锻炼时仅利用稀少结构(≤10 个实例)的环境下,而复旦大学取小红书结合发布的 InstanceAssemble 新手艺,就是若何让 AI 切确按照用户指定的和内容生成图像,AI 就能正在对应生成合适语义的图像内容。通过立异“实例拆卸留意力”机制,尝试表白,面对结构对齐不准、语义脱节或计较成本过高的问题。标记着 AI 绘画进入“可精准构图”的新阶段。该手艺还采用轻量级适配体例降低利用门槛,后者会按照用户给定的空间结构束缚(如鸿沟框 Bounding Boxes、朋分掩码 Masks 或骨架图)生成取之对应的图像。大幅超越了现无方法。这项手艺已开源,IT之家 12 月 26 日动静,
值得一提的是,仅通过约 7100 万个参数(约 3.46% 额外参数),InstanceAssemble 正在各类结构前提下均表示优异,实现了从简单到复杂、稀少到稠密结构的精准图像生成,InstanceAssemble 正在包含 90 万个实例的稠密结构数据集上表示优异,还建立了包含 5000 张图像和 90000 个实例的“Denselayout”基准测试集。无需从头锻炼整个模子,
尝试中,为设想、告白和内容创做等范畴的使用供给了强大支撑。就能适配 Stable Diffusion3-Medium 模子。