Prihodnost umetne inteligence: Google predstavlja družino modelov Gemini

Generativna Umetna Inteligenca

Google širi svoje obzorje z Gemini, svojo vodilno serijo generativnih modelov umetne inteligence, aplikacij in storitev.

Kaj je Gemini?

Gemini je dolgo obljubljena naslednja generacija družine modelov GenAI, ki sta jih razvila Googlova laboratorija za raziskave umetne inteligence DeepMind in Google Research. Na voljo je v treh izvedbah.

  • Gemini Ultra, najzmogljivejši model Gemini.
  • Gemini Pro, “lite” različica modela Gemini.
  • Gemini Nano, manjši “destilirani” model, ki deluje na mobilnih napravah, kot je Pixel 8 Pro.
    Vsi modeli Gemini so bili usposobljeni za “nativno multimodalno” delovanje – z drugimi besedami, sposobni so delati z več kot samo besedami. Predhodno so bili usposobljeni in fino nastavljeni na različne avdio vsebine, slike in video posnetke, obsežne zbirke kod in besedila v različnih jezikih.

To loči Gemini od modelov, kot je Googlov LaMDA, ki je bil usposobljen izključno na besedilnih podatkih. LaMDA ne more razumeti ali ustvarjati ničesar razen besedila (npr. esejev, osnutkov e-pošte), kar pa ne velja za modele Gemini.

Kakšna je razlika med aplikacijami Gemini in modeli Gemini?

Google je ponovno dokazal, da mu blagovne znamke ne ležijo najbolje, saj sprva ni jasno pojasnil, da je Gemini ločen in neodvisen od aplikacij Gemini na spletu in mobilnih napravah (prej imenovanih Bard). Aplikacije Gemini so preprosto vmesnik, preko katerega je mogoče dostopati do določenih modelov Gemini – pomislite na to kot na odjemalca za Googlov GenAI.

Očitno so se podjetja, ki nam ponujajo Generativno AI odločila, da nas bodo enostavno medla z imeni. GPTji, ki imajo custom GPTje za GPTje, Gemini, kjer sta dva, različni Copilot paketi in njihove funkcionalnosti, za vsako rabimo polovico strokovnjaka, da z njim pogruntamo kaj in kako.

Mimogrede, aplikacije in modeli Gemini so popolnoma neodvisni od ImageNet 2, Googlovega modela za pretvorbo besedila v sliko, ki je na voljo v nekaterih orodjih in okoljih podjetja.

Kaj lahko Gemini počne?

Ker so modeli Gemini multimodalni, lahko v teoriji opravljajo vrsto multimodalnih nalog, od prepisovanja govora do označevanja slik in videoposnetkov ter ustvarjanja umetniških del. Nekatere od teh zmogljivosti so že dosegle fazo izdelka (več o tem kasneje), Google pa obljublja vse to – in še več – v bližnji prihodnosti.

Seveda je težko verjeti podjetju na besedo.

Google je resno podcenil z začetno izdajo Barda. Nedavno je zmotil z videoposnetkom, ki naj bi prikazoval zmogljivosti Gemini, a se je izkazalo, da je bil močno prirejen in je bil bolj ali manj želja.

Kljub temu, ob predpostavki, da Google približno resnično trdi svoje trditve, so tukaj stvari, ki jih bodo različne stopnje Gemini lahko opravile, ko dosežejo svoj polni potencial.

Kako se Gemini meri z OpenAI GPT-4?

Google je večkrat poudaril, da je Gemini nadrejen v primerjalnih testih, trdi, da Gemini Ultra presega trenutne vrhunske rezultate na “30 izmed 32 široko uporabljenih akademskih merilih, ki se uporabljajo v raziskavah in razvoju velikih jezikovnih modelov”. Podjetje pravi, da je Gemini 1.5 Pro medtem bolj sposoben pri nalogah, kot so povzemanje vsebine, iskanje idej in pisanje v nekaterih scenarijih; predvidevamo, da se bo to spremenilo z izdajo naslednjega modela Ultra.

Koliko stane Gemini?

Gemini 1.5 Pro je trenutno brezplačen za uporabo v aplikacijah Gemini in, za zdaj, AI Studio in Vertex AI.

Ko Gemini 1.5 Pro zapusti predogled v Vertexu, bo model stal 0,0025 USD na znak, medtem ko bo izhod stalo 0,00005 USD na znak. Stranke Vertex plačajo na 1000 znakov (približno 140 do 250 besed) in, v primeru modelov, kot je Gemini Pro Vision, na sliko (0,0025 USD).

Predpostavimo, da članek z 500 besedami vsebuje 2.000 znakov. Povzetek tega članka z Gemini 1.5 Pro bi stal 5 USD. Medtem bi generiranje članka podobne dolžine stalo 0,1 USD.

Cena za Ultra še ni bila objavljena.

Kje lahko preizkusite Gemini?

Najlažje je izkusiti Gemini Pro v aplikacijah Gemini. Pro in Ultra odgovarjata na poizvedbe v različnih jezikih.

Gemini Pro in Ultra sta dostopna tudi v predogledu v Vertex AI preko API-ja. API je trenutno brezplačen za uporabo “znotraj omejitev” in podpira določene regije, vključno z Evropo, ter funkcije, kot so klepetalne funkcionalnosti in filtriranje.

Drugače pa se Gemini Pro in Ultra nahajata v AI Studio. Z uporabo storitve lahko razvijalci iterirajo pozive in klepetalne robote na osnovi Gemini, nato pa pridobijo API ključe za uporabo v svojih aplikacijah – ali izvozijo kodo v bolj popolno IDE.

Code Assist (prej Duet AI za razvijalce), Googlov nabor orodij za pomoč pri kodiranju, ki jih poganjajo modeli Gemini, omogoča razvijalcem “obsežne” spremembe čez kode, na primer posodobitve meddatotečnih odvisnosti in pregled velikih delov kode.

Google je modele Gemini vključil v svoja orodja za razvoj za Chrome in mobilno razvojno platformo Firebase ter svoja orodja za ustvarjanje in upravljanje baz podatkov. In zagnal je nove varnostne izdelke, ki jih poganja Gemini, kot je Gemini v Threat Intelligence, komponenta Googlove platforme za kibernetsko varnost Mandiant, ki lahko analizira velike dele potencialno škodljive kode in omogoča uporabnikom izvajanje naravnih jezikovnih iskanj za tekoče grožnje ali indikatorje kompromitacije.

Ali bo Gemini prišel na iPhone?

Morda! Apple in Google naj bi bila v pogovorih o uporabi Gemini za številne funkcije, ki naj bi bile vključene v prihajajočo posodobitev iOS-a kasneje letos. Nič še ni dokončno, saj naj bi Apple prav tako vodil pogovore z OpenAI in razvijal svoje zmogljivosti GenAI.

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja