Podjetje Stability AI je predstavilo Stable Diffusion 3, najnovejšo in najmočnejšo različico svojega modela umetne inteligence za ustvarjanje slik. Čeprav podrobnosti niso znane, gre očitno za poskus, da bi se odzvali na hype okoli nedavno predstavljenih konkurentov OpenAI in Google.
Tehnične podrobnosti
Stable Diffusion 3 (SD3) temelji na novi arhitekturi in bo deloval na različni strojni opremi (čeprav boste še vedno potrebovali nekaj zmogljivega). Uporablja posodobljen “difuzijski transformator”, tehniko, ki so jo pionirsko uporabili leta 2022, vendar so jo leta 2023 revidirali in zdaj dosega skalabilnost. Podobna načela uporablja tudi Sora, impresiven video generator OpenAI (Will Peebles, soavtor članka, je kasneje postal sovodja projekta Sora). SD3 uporablja tudi “flow matching”, drugo novo tehniko, ki na podoben način izboljšuje kakovost brez pretiranega povečanja režijskih stroškov.
Primerjava s konkurenco
Primerjava Stable Diffusion 3 s konkurenco
DALL-E 3
DALL-E 3 je model umetne inteligence za ustvarjanje slik, ki ga je razvil OpenAI. Je sposoben ustvarjati neverjetno realistične slike, vendar je zaprt za javnost in je dostopen le peščici izbranih uporabnikov. DALL-E 3 uporablja tehniko “generativnega nasprotnega omrežja” (GAN), ki se je izkazala za manj učinkovito in skalabilno v primerjavi z “difuzijskim transformatorjem”, ki ga uporablja SD3. Poleg tega DALL-E 3 deluje le na zmogljivih grafičnih karticah, kar ga naredi manj dostopnega za širšo javnost.
Gemini
Gemini je model umetne inteligence za ustvarjanje slik, ki ga je razvil Google. Še vedno je v zgodnji fazi razvoja, vendar kaže velik potencial. Gemini uporablja tehniko “vaznih nevronskih omrežij” (VAN), ki je podobna “difuzijskemu transformatorju”, ki ga uporablja SD3. Vendar pa je Gemini še vedno v fazi testiranja in ni jasno, kdaj bo na voljo za javnost. Poleg tega je Gemini trenutno omejen na ustvarjanje slik z določeno ločljivostjo, medtem ko SD3 deluje z različnimi ločljivostmi.
Prednosti SD3 pred konkurenco
SD3 ima nekaj prednosti pred konkurenco:
- Temelji na novi arhitekturi, ki je bolj učinkovita in skalabilna.
- Uporablja “difuzijski transformator” in “flow matching”, ki izboljšata kakovost slik.
- Deluje na različni strojni opremi.
- Je odprtokoden, kar pomeni, da ga lahko razvijajo in izboljšujejo raziskovalci in skupnosti po vsem svetu.
Slabosti SD3 pred konkurenco
SD3 ima tudi nekaj slabosti:
- Še ni na voljo za javnost.
- Potrebuje zmogljivo strojno opremo.
- Ni jasno, kako se bo kosal s konkurenco OpenAI in Google, ko bodo ti modeli na voljo širši javnosti.
Zaključek
Stable Diffusion 3 je obetaven nov model umetne inteligence za ustvarjanje slik. Ima nekaj prednosti pred konkurenco, vendar je še prezgodaj, da bi lahko rekli, ali bo postal vodilni na tem področju.
Peter Mesarec je verjetno najbolj poslušan predavatelj Chat GPT in UI v Sloveniji, njegovih predavanj o uporabi Chat GPT v podjetjih se je udeležilo več tisoč udeležencev, svoja znanja pa pogosto objavlja tukaj in na drugih spletnih straneh.