性能顯著提高。
多知網(wǎng)2月23日消息,Stability AI今天發(fā)布了其 Stable Diffusion 3.0下一代旗艦文本到圖像生成 AI 模型的早期預(yù)覽版,在圖像質(zhì)量、多個(gè)對(duì)象、拼寫(xiě)能力方面都有顯著提高,它采用了與Sora模型類(lèi)似的架構(gòu)。
根據(jù)介紹,Stable Diffusion 3.0旨在提供改進(jìn)來(lái)自多主題提示的圖像質(zhì)量和生成圖像有更好的性能,它還將提供比之前的Stable Diffusion更好的文字渲染,從而使生成的圖像內(nèi)部的拼寫(xiě)更加準(zhǔn)確和一致。
(Stable Diffusion3生成的圖片,文字清晰可見(jiàn))
Stability AI的首席執(zhí)行官Emad Mostaque提到,Stable Diffusion 3 采用了Diffusion Transformer架構(gòu),這是一種新型的架構(gòu)設(shè)計(jì),與OpenAI最近推出的Sora模型采用的架構(gòu)相似。
(Stable Diffusion3生成的圖片,圖像質(zhì)量高)
在過(guò)去的一年里,Stability AI一直在穩(wěn)步迭代并發(fā)布多個(gè)圖像模型,每個(gè)模型的復(fù)雜程度和質(zhì)量都在不斷提高。7月份發(fā)布的 SDXL極大地改進(jìn)了Stable Diffusion 的基礎(chǔ)模型,現(xiàn)在該公司正在尋求進(jìn)一步的改進(jìn)。
對(duì)于文生圖模型來(lái)說(shuō),根據(jù)Prompt讓生成的圖像中帶有指定的文字一直是個(gè)難題,Stable Diffusion 3.0則能很好的解決這個(gè)問(wèn)題。
(Stable Diffusion3生成的圖片,文字清晰可見(jiàn))
Stable Diffusion 3.0的模型參數(shù)在以800M 到 8B之間。
根據(jù)介紹,現(xiàn)在用戶(hù)已經(jīng)可以在加入候補(bǔ)名單,申請(qǐng)Stable Diffusion 3.0的訪(fǎng)問(wèn)權(quán)限了:https://stability.ai/stablediffusion3
實(shí)際上,Stability AI在文生視頻上也在發(fā)力,此前已經(jīng)推出Stable Video,目前已經(jīng)開(kāi)放公測(cè)。
剛剛第一季度,AIGC賽道已經(jīng)熱鬧非凡,就文生圖來(lái)說(shuō)還有Midjourney及OpenAI旗下的DALL-E 3,個(gè)個(gè)身懷絕技。(多知網(wǎng) Penny)