继OpenAI的Sora的霸屏一周后,Stability AI在上周也发布了新模型Stable Diffusion 3(下文简称“SD3”)。这一模型在生成图像的质量、多主题提示以及文字书写效果方面都迎来了革命性的提升,成为Stability AI目前“功能最强大”的文生图模型。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b7ca8d081cafa40f3cc6ced59b64038c/53eb2d2dd42a2834f0a10c311db5c9ea15cebf33.jpg?tbpicau=2024-08-15-05_80ad09f0fa8dd5f3993c5bedd62cda7f)
1、告别乱码,文字渲染更精准
本次SD3最亮眼之处莫过于是可生成提示词所指定的文字,在上图中,SD3模型不仅生成了一张虚实结合、光影自然且视觉舒适的画面,还准确地写出了“不成功便成仁”的英文,一改大众对过往文生图模型难以输出文字的印象。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=f7bb6a324ad79123e0e0947c9d345917/fb4ecbcec3fdfc03af7ed982923f8794a4c22633.jpg?tbpicau=2024-08-15-05_444db02c74105e2cbb6d859600f0404a)
2、对物理规则的理解更准确
从官方发布的示例图来看,SD3模型似乎在朝着成为古希腊掌管初中物理的神而努力,还原了“一匹马优雅地站在一颗五彩斑斓的球上”提示词描绘的景象。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b0eea2649bc451daf6f60ce386fd52a5/70a465224f4a20a4ed1806fdd6529822720ed03c.jpg?tbpicau=2024-08-15-05_39970bac190c7641bfab30537d71a864)
3、多主题提示能力提升
现在用户还可以一次性输入多个主题提示,在过去,如何准确地还原多个提示词对象的属性和位置,是文生图模型亟待解决的难题,从官方给出的效果图来看,现在的SD3已经能较为巧妙地理解“宇航员、穿着蓬蓬裙的猪、粉色伞和知更鸟”等多重提示词的元素了。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=0016c956563853438ccf8729a313b01f/ac8ff0dcd100baa1f82d7d810110b912c8fc2e3c.jpg?tbpicau=2024-08-15-05_97c5f57c8a6a4a0597a7aece4aaf5c6c)
有网友在好奇心趋势下,使用相同的多主题提示词,通过另外几家AI文生图的模型生成图像,展开了一场卷王之争。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=631f404066a446237ecaa56aa8227246/8f83546034a85edf838cc4190f540923dd54753d.jpg?tbpicau=2024-08-15-05_c412cb8a31afa73f164ba9dabb8a43b1)
4、生成效果更高质
相较于之前的版本,SD3生成的图像质量实现了显著的升级,例如“变色龙在黑色背景上的摄影棚特写”生成的图像如上图所示,这放在期刊杂志上也毫不违和。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=2ef636d1f0fd5266a72b3c1c9b189799/759101f790529822dd3303f991ca7bcb0a46d43e.jpg?tbpicau=2024-08-15-05_32e4be732f3e0b025863b47ad80ea7e4)
5、新增图像转视频等新功能
![](http://tiebapic.baidu.com/forum/w%3D580/sign=83c5f4e7ed64034f0fcdc20e9fc37980/07290b3b5bb5c9eaddf039d99339b6003af3b33f.jpg?tbpicau=2024-08-15-05_80f2f06adbabe7536b66bf046413c354)
除此之外,Stability创始人还表示,第一,SD3模型还支持用文字修改画面内容,精准控制图像中的每一个元素,包括替换和删除。第二,图像无缝转视频,毫无改动痕迹的“移花接木”让人大喊Amazing。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b0eaa2649bc451daf6f60ce386fd52a5/70a465224f4a20a4ed1c06fdd6529822720ed038.jpg?tbpicau=2024-08-15-05_4d393d3111794e74f4c703dcf29657f1)
这些不断精进的功能,得益于该模型采用了与Sora同架构的Transformer技术和Flow Matching技术,虽然从发布时间上看似乎有种“既然要卷,干脆就卷麻”的赶脚,但采用新技术也是早前的决定,这一架构也与Sora一样引自去年的论文。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=6388054cb41fbe091c5ec31c5b600c30/a1ead909b3de9c82c91bc3b52a81800a19d8433b.jpg?tbpicau=2024-08-15-05_ca0b6c36126464cd5a64b6e631dd39ce)
据悉,与Sora相同,目前SD3还未全面开放,但公司首席执行官表示在未来将根据用户反馈将该模型开源。但即便还未开放,也已经有一众网友表示,自己的电脑配置快撑不住了。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=3a75a0c93f310a55c424defc87454387/0561dd39b6003af3f7c4e65a732ac65c1138b6c4.jpg?tbpicau=2024-08-15-05_3972fb04d133bf4749c61af466ac14fc)
影驰 RTX 4080 SUPER金属大师系列,搭载满血版的AD103-400核心、16GB GDDR6X大显存和第四代Tensor Cores、第三代RT Cores,使其专业生产力和游戏性能的表现都达到了无可挑剔的水平,另外在Tensor RT插件的加持下,AI绘图的生产效率也能瞬间提升数倍,为你的创作使用体验全力加速!
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b7ca8d081cafa40f3cc6ced59b64038c/53eb2d2dd42a2834f0a10c311db5c9ea15cebf33.jpg?tbpicau=2024-08-15-05_80ad09f0fa8dd5f3993c5bedd62cda7f)
1、告别乱码,文字渲染更精准
本次SD3最亮眼之处莫过于是可生成提示词所指定的文字,在上图中,SD3模型不仅生成了一张虚实结合、光影自然且视觉舒适的画面,还准确地写出了“不成功便成仁”的英文,一改大众对过往文生图模型难以输出文字的印象。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=f7bb6a324ad79123e0e0947c9d345917/fb4ecbcec3fdfc03af7ed982923f8794a4c22633.jpg?tbpicau=2024-08-15-05_444db02c74105e2cbb6d859600f0404a)
2、对物理规则的理解更准确
从官方发布的示例图来看,SD3模型似乎在朝着成为古希腊掌管初中物理的神而努力,还原了“一匹马优雅地站在一颗五彩斑斓的球上”提示词描绘的景象。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b0eea2649bc451daf6f60ce386fd52a5/70a465224f4a20a4ed1806fdd6529822720ed03c.jpg?tbpicau=2024-08-15-05_39970bac190c7641bfab30537d71a864)
3、多主题提示能力提升
现在用户还可以一次性输入多个主题提示,在过去,如何准确地还原多个提示词对象的属性和位置,是文生图模型亟待解决的难题,从官方给出的效果图来看,现在的SD3已经能较为巧妙地理解“宇航员、穿着蓬蓬裙的猪、粉色伞和知更鸟”等多重提示词的元素了。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=0016c956563853438ccf8729a313b01f/ac8ff0dcd100baa1f82d7d810110b912c8fc2e3c.jpg?tbpicau=2024-08-15-05_97c5f57c8a6a4a0597a7aece4aaf5c6c)
有网友在好奇心趋势下,使用相同的多主题提示词,通过另外几家AI文生图的模型生成图像,展开了一场卷王之争。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=631f404066a446237ecaa56aa8227246/8f83546034a85edf838cc4190f540923dd54753d.jpg?tbpicau=2024-08-15-05_c412cb8a31afa73f164ba9dabb8a43b1)
4、生成效果更高质
相较于之前的版本,SD3生成的图像质量实现了显著的升级,例如“变色龙在黑色背景上的摄影棚特写”生成的图像如上图所示,这放在期刊杂志上也毫不违和。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=2ef636d1f0fd5266a72b3c1c9b189799/759101f790529822dd3303f991ca7bcb0a46d43e.jpg?tbpicau=2024-08-15-05_32e4be732f3e0b025863b47ad80ea7e4)
5、新增图像转视频等新功能
![](http://tiebapic.baidu.com/forum/w%3D580/sign=83c5f4e7ed64034f0fcdc20e9fc37980/07290b3b5bb5c9eaddf039d99339b6003af3b33f.jpg?tbpicau=2024-08-15-05_80f2f06adbabe7536b66bf046413c354)
除此之外,Stability创始人还表示,第一,SD3模型还支持用文字修改画面内容,精准控制图像中的每一个元素,包括替换和删除。第二,图像无缝转视频,毫无改动痕迹的“移花接木”让人大喊Amazing。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b0eaa2649bc451daf6f60ce386fd52a5/70a465224f4a20a4ed1c06fdd6529822720ed038.jpg?tbpicau=2024-08-15-05_4d393d3111794e74f4c703dcf29657f1)
这些不断精进的功能,得益于该模型采用了与Sora同架构的Transformer技术和Flow Matching技术,虽然从发布时间上看似乎有种“既然要卷,干脆就卷麻”的赶脚,但采用新技术也是早前的决定,这一架构也与Sora一样引自去年的论文。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=6388054cb41fbe091c5ec31c5b600c30/a1ead909b3de9c82c91bc3b52a81800a19d8433b.jpg?tbpicau=2024-08-15-05_ca0b6c36126464cd5a64b6e631dd39ce)
据悉,与Sora相同,目前SD3还未全面开放,但公司首席执行官表示在未来将根据用户反馈将该模型开源。但即便还未开放,也已经有一众网友表示,自己的电脑配置快撑不住了。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=3a75a0c93f310a55c424defc87454387/0561dd39b6003af3f7c4e65a732ac65c1138b6c4.jpg?tbpicau=2024-08-15-05_3972fb04d133bf4749c61af466ac14fc)
影驰 RTX 4080 SUPER金属大师系列,搭载满血版的AD103-400核心、16GB GDDR6X大显存和第四代Tensor Cores、第三代RT Cores,使其专业生产力和游戏性能的表现都达到了无可挑剔的水平,另外在Tensor RT插件的加持下,AI绘图的生产效率也能瞬间提升数倍,为你的创作使用体验全力加速!