V maju je OpenAI prvič predstavil presenetljivo realističen, skoraj v realnem času delujoč “napredni glasovni način” za svojo platformo ChatGPT. Podjetje je napovedalo, da bo ta funkcija na voljo plačljivim uporabnikom ChatGPT v nekaj tednih.
Mesece kasneje je OpenAI sporočil, da potrebuje več časa.
V objavi na uradnem Discord strežniku OpenAI-u je podjetje zapisalo, da je načrtovalo začetek uvajanja naprednega glasovnega načina v alfa različici za majhno skupino uporabnikov ChatGPT Plus konec junija, vendar so dolgotrajne težave povzročile preložitev zagona nekje v julij.
“Na primer izboljšujemo sposobnost modela, da zazna in zavrne določene vsebine,” piše OpenAI. “Prav tako delamo na izboljšanju uporabniške izkušnje in pripravljamo našo infrastrukturo za povečanje obsega na milijone, pri čemer ohranjamo odzivnost v realnem času. Kot del naše iterativne strategije uvajanja bomo z alfo začeli z majhno skupino uporabnikov, da zberemo povratne informacije in širimo na podlagi tega, kar se naučimo.”
Napredni glasovni način morda ne bo na voljo vsem uporabnikom ChatGPT Plus do jeseni, odvisno od tega, ali bo uspel zadostiti določenim notranjim varnostnim in zanesljivostnim preverjanjem, pravi OpenAI. Zamuda pa ne bo vplivala na uvedbo novih zmogljivosti videa in skupne rabe zaslona, ki so jih ločeno prikazali na pomladanskem novinarskem dogodku OpenAI.
Te zmogljivosti vključujejo reševanje matematičnih problemov na podlagi slike problema in razlago različnih menijev nastavitev na napravi. Zasnovane so tako, da delujejo preko ChatGPT na pametnih telefonih in namiznih odjemalcih, kot je aplikacija za macOS, ki je od danes na voljo vsem uporabnikom ChatGPT.
“Napredni glasovni način ChatGPT lahko razume in odgovarja z emocijami ter neverbalnimi namigi, kar nas približuje realnemu, naravnemu pogovoru z umetno inteligenco,” piše OpenAI. “Naša misija je, da vam te nove izkušnje prinesemo premišljeno.”
Med predstavitvijo na dogodku je osebje OpenAI pokazalo, kako ChatGPT skoraj takoj odzove na zahteve, kot je reševanje matematičnega problema na listu papirja, postavljenem pred kamero pametnega telefona raziskovalca.
Napredni glasovni način ChatGPT je povzročil precej polemik, saj je privzeti glas “Sky” presenetljivo spominjal na glas igralki Scarlett Johansson. Johanssonova je kasneje izdala izjavo, v kateri je povedala, da je najela pravno svetovanje, da bi izvedela več o glasu in kako je bil razvit — in da je OpenAI večkrat zavrnila ponudbe za licenciranje svojega glasu za ChatGPT.
OpenAI, čeprav zanika, da bi uporabil glas Johanssonove brez dovoljenja ali zvok, ki bi ga spominjal, je kasneje odstranil sporni glas.
Peter Mesarec je verjetno najbolj poslušan predavatelj Chat GPT in UI v Sloveniji, njegovih predavanj o uporabi Chat GPT v podjetjih se je udeležilo več tisoč udeležencev, svoja znanja pa pogosto objavlja tukaj in na drugih spletnih straneh.