類(lèi)Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字

2024-02-23 13:45:44發(fā)布來(lái)源：多知網(wǎng) 作者：Penny

　　多知網(wǎng)2月23日消息，Stability AI今天發(fā)布了其 Stable Diffusion 3.0下一代旗艦文本到圖像生成 AI 模型的早期預(yù)覽版，在圖像質(zhì)量、多個(gè)對(duì)象、拼寫(xiě)能力方面都有顯著提高，它采用了與Sora模型類(lèi)似的架構(gòu)。

　　根據(jù)介紹，Stable Diffusion 3.0旨在提供改進(jìn)來(lái)自多主題提示的圖像質(zhì)量和生成圖像有更好的性能，它還將提供比之前的Stable Diffusion更好的文字渲染，從而使生成的圖像內(nèi)部的拼寫(xiě)更加準(zhǔn)確和一致。

　　(Stable Diffusion3生成的圖片，文字清晰可見(jiàn))

　　Stability AI的首席執(zhí)行官Emad Mostaque提到，Stable Diffusion 3 采用了Diffusion Transformer架構(gòu)，這是一種新型的架構(gòu)設(shè)計(jì)，與OpenAI最近推出的Sora模型采用的架構(gòu)相似。　　

　　(Stable Diffusion3生成的圖片，圖像質(zhì)量高)

　　在過(guò)去的一年里，Stability AI一直在穩(wěn)步迭代并發(fā)布多個(gè)圖像模型，每個(gè)模型的復(fù)雜程度和質(zhì)量都在不斷提高。7月份發(fā)布的 SDXL極大地改進(jìn)了Stable Diffusion 的基礎(chǔ)模型，現(xiàn)在該公司正在尋求進(jìn)一步的改進(jìn)。

　　對(duì)于文生圖模型來(lái)說(shuō)，根據(jù)Prompt讓生成的圖像中帶有指定的文字一直是個(gè)難題，Stable Diffusion 3.0則能很好的解決這個(gè)問(wèn)題。

　　(Stable Diffusion3生成的圖片，文字清晰可見(jiàn))

　　Stable Diffusion 3.0的模型參數(shù)在以800M 到 8B之間。

　　根據(jù)介紹，現(xiàn)在用戶(hù)已經(jīng)可以在加入候補(bǔ)名單，申請(qǐng)Stable Diffusion 3.0的訪(fǎng)問(wèn)權(quán)限了：https://stability.ai/stablediffusion3

　　實(shí)際上，Stability AI在文生視頻上也在發(fā)力，此前已經(jīng)推出Stable Video，目前已經(jīng)開(kāi)放公測(cè)。

　　剛剛第一季度，AIGC賽道已經(jīng)熱鬧非凡，就文生圖來(lái)說(shuō)還有Midjourney及OpenAI旗下的DALL-E 3，個(gè)個(gè)身懷絕技。(多知網(wǎng) Penny)

商學(xué)院

Open Talk

類(lèi)Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字

相關(guān)閱讀

商學(xué)院

Open Talk

類(lèi)Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字

相關(guān)閱讀

類(lèi)Sora架構(gòu)加持文生圖：Stable Diffusion 3.0圖像更逼真，可顯示指定文字