Deepseek je napovedal svoj najnovejši model umetne inteligence, Deepseek-V2, ki naj bi se po rezultatih na glavnih globalnih testih resno približal vodilnim komercialnim modelom kot so GPT-4, Claude 3 in Llama 3. Po podatkih podjetja model dosega 86,8 % na MMLU (benchmark za razumevanje splošnega znanja), kar ga po tej metriki uvršča tik za najnaprednejšimi rešitvami v industriji. Poleg tega model izstopa z rezultati na programerskem preizkusu HumanEval, kjer dosega 89,0 %. Ključna novost Deepseek-V2 je v polno odprtokodnem dostopu in transparentnosti glede podatkov in arhitekture, kar je redkost med najzmogljivejšimi AI modeli.
Konkretni rezultati, arhitektura in odprtokodnost
Deepseek-V2 temelji na transformerski arhitekturi s 236 milijardami parametrov, kar ga uvršča med največje in najkompleksnejše odprtokodne jezikovne modele. Podjetje je izpostavilo, da je bil model treniran na interna podatkovna sklopa z več kot 10 bilijoni tokenov iz različnih virov, vključno z znanstveno, tehnično in kodno vsebino. Po podatkih podjetja model ni zgolj tekstovni, temveč podpira tudi multimodalne naloge, kot so razumevanje in generiranje slik, kar ga postavlja ob bok multimodalnim rešitvam, kot so GPT-4o ali Gemini.
Rezultati na najbolj odmevnih testih so za odprt model izjemni. Na GSM8K, testu za matematično sklepanje, dosega 94,1 %, kar je le za nekaj odstotnih točk za najboljšimi zaprtimi modeli. Kljub temu ostajajo razlike, na primer pri kompleksnih logičnih nalogah ali pri razumevanju daljših kontekstov, kjer GPT-4 in Claude 3 še vedno ohranjata prednost. V testu ARC Challenge pa dosega 81,0 %, kar presega večino odprtih modelov, a še zaostaja za najnovejšimi različicami vodilnih komercialnih modelov.
Deepseek je model objavil kot open-source, kar pomeni, da si lahko raziskovalci, razvijalci in podjetja prosto ogledajo kodo, prenesejo model in ga uporabljajo za lastne projekte. To je pomembna razlika v primerjavi z večino konkurenčnih modelov podobne zmogljivosti, ki ostajajo zaprti in so dostopni le preko API vmesnikov ali z omejenimi pravicami uporabe. Podjetje nudi omejen dostop najprej za razvijalce in raziskovalce, širšo javnost pa naj bi model dosegel v nekaj mesecih.
Industrijski pomen, izzivi in konkurenčni kontekst
Deepseek-V2 pomeni pomemben premik v odprtokodnem gibanju na področju umetne inteligence. Z rezultati, ki so primerljivi z nekaterimi komercialnimi giganti, model omogoča neodvisno validacijo in raziskovanje brez omejitev licenc ali stroškov uporabe. To je ključnega pomena za akademsko sfero, podjetja, ki želijo graditi prilagojene rešitve, ter razvoj splošnih in specializiranih aplikacij na področjih, kot so naravnoslovje, medicina in programski inženiring.
Pri tem velja opozoriti na odprta vprašanja in izzive, s katerimi se model še sooča. Kljub visoki zmogljivosti na standardnih testih, model za zdaj ne dosega vrhunskih rezultatov pri nekaterih kompleksnih nalogah, ki vključujejo razumevanje subtilnosti jezika ali večstopenjsko sklepanje v realnem času. Prav tako ostajajo odprta vprašanja glede stroškov poganjanja tako velikega modela v praksi ter zmožnosti obvladovanja morebitnih pristranskosti in varnostnih tveganj, ki jih prinaša odprt dostop.
V primerjavi s konkurenco Deepseek stavi predvsem na odprtost in transparentnost, kar lahko pospeši inovacije in pluralnost na področju AI. Z vidika vpliva na industrijo je to lahko prelomno, saj omogoča manjšim akterjem dostop do tehnologije, ki je bila doslej rezervirana za velika podjetja. Vprašanje, ki ostaja odprto, je, ali bo skupnost sprejela model v enaki meri kot vodilne zaprte rešitve in ali bo Deepseek lahko sledil tempu razvoja največjih igralcev na dolgi rok.
