Kontroverze okoli AI merilnih lestvic v industriji
Najnovejša študija, ki so jo pripravili raziskovalci iz AI laboratorija Cohere, univerz Stanford, MIT in inštituta Allen Institute for AI (AI2), je sprožila val negodovanja znotraj skupnosti umetne inteligence. Študija namreč obtožuje organizacijo LM Arena, ki stoji za priljubljenim merilnim orodjem Chatbot Arena, da je omogočila določenim vodilnim podjetjem v AI industriji, da so dosegla boljše rezultate na lestvici na račun svojih tekmecev.
Po navedbah avtorjev so določeni uveljavljeni igralci kot Meta in OpenAI dobili prednost pri ocenjevanju, kar po njihovi oceni izkrivlja dejanski položaj znotraj panoge. LM Arena je sicer poznana po svoji metodi zbiranja podatkov iz množice uporabnikov, ki ocenjujejo uspešnost različnih AI modelov, vendar pa naj bi sistem omogočal poseben dostop ali optimizirano uporabo, ki je ni imela širša publiko.
Nelojalne prakse v AI benchmarkingu
Raziskava opozarja na možne nepravične prakse v procesu merjenja kakovosti umetne inteligence s pomočjo benchmarkov oziroma primerjalnih lestvic. Benchmarki so ključni, saj pomagajo ocenjevalcem in investitorjem razumeti, kako dobri so posamezni AI modeli glede na določene kriterije, kot so natančnost, odzivnost in zmožnost reševanja kompleksnih nalog.
Če benchmark ni povsem nepristranski, lahko to pomembno vpliva na ugled in finančne tokove podjetij, ki so vključena v to igro. Avtorji raziskave tako opozarjajo, da LM Arena ni delovala kot nevtralni arbiter, temveč kot sredstvo, s katerim so nekateri udeleženci na lestvici pridobili pomembne prednosti.
Pomen transparentnosti in zaupanja v AI industriji
Ta primer odraža širšo problematiko, s katero se sooča industrija umetne inteligence: potrebo po transparentnosti, poštenosti in zaupanju pri ocenjevanju inovacij. Umetna inteligenca ima vse večji vpliv na družbo in gospodarstvo, zato je ključno, da merila za njeno oceno temeljijo na objektivnih in dostopnih podatkih.
Udeleženci na trgu in javnost si želijo jasno razumeti, kateri sistemi so resnično najboljši in zakaj. Razkrite nepravilnosti v takšnih benchmarkih lahko povzročijo dvom v rezultate in otežijo nadaljnji razvoj panoge. Zato strokovnjaki pozivajo k uvedbi strožjih pravil pri pravicah dostopa do orodij ter k ponovni evalvaciji obstoječih merilnih praks.
S temi ukrepi bi lahko zagotovili bolj pravično in konkurenčno okolje, ki spodbudi inovacije, hkrati pa zavaruje interese manjših in novih podjetij ter raziskovalcev, ki želijo prispevati k razvoju umetne inteligence.
Celotna zadeva je opozorilo, da je potrebno skrbno pregledovati in urejati orodja, ki določajo standarde in uspešnost v tako hitro rastoči in pomembni tehnološki panogi. Le na način, ki ohranja neodvisnost in objektivnost, bo AI lahko nadaljevala svojo pot kot zanesljiva in koristna tehnologija tudi v Sloveniji in širše.
Peter Mesarec je verjetno najbolj poslušan predavatelj Chat GPT in UI v Sloveniji, njegovih predavanj o uporabi Chat GPT v podjetjih se je udeležilo več tisoč udeležencev, svoja znanja pa pogosto objavlja tukaj in na drugih spletnih straneh.