Reddit se prodaja za treniranje umetne inteligence

Generativna Umetna Inteligenca

GPT TL;DR: Reddit napoveduje IPO in razkriva pogodbe za licenciranje svojih vsebin za treniranje umetnih inteligenc. Ta poteza odpira nove možnosti za financiranje vsebin spletnih strani, obenem pa postavlja vprašanja o avtorskih pravicah in dostopu do podatkov za razvoj velikih jezikovnih modelov. Google in OpenAI, s Samom Altmanom kot pomembnim deležnikom, so verjetni partnerji v teh dogovorih.

Generativna umetna inteligenca spreminja definicijo avtorske zaščite vsebin, saj za svoje delovanje nujno potrebuje velike količine vsebin, za katere je skoraj nemogoče zagotoviti, da so pridobljene v skladu z avtorsko zakonodajo. Vsaj tako smo mislili, ko smo dobili prve velike jezikovne modele. OpenAI se od začetka otepa tožb podjetij, katerih vsebin je uporabil brez dovoljenja za treniranje GPT-jev.

Res pa je, da sedaj že za nazaj urejajo dovoljenja in avtorske pravice, na drugi strani pa so enostavno začeli manj komunicirati kje in kako so dobili informacije.

Na drugi strani imamo založnike in lastnike spletnih strani, takšnih in drugačnih, ki imajo v veliki meri težave s financiranjem svojih vsebin. Takšna spletna stran, Reddit, ki spada med najbolj obiskane spletne strani v ZDA in ni neznanka tudi po svetu, se pravkar pripravlja na IPO. V tej luči je prišlo do razkritja informacije o tem, da je Reddit sklenil in sklepa več pogodb za licenciranje več kot milijarde objav in več milijard komentarjev, ki jih ima na svoji spletni strani.

Na Redditu sicer niso javno povedali, s kom so sklenili to pogodbo, ampak po poročanju Reutersa naj bi bil to najverjetneje Google. Res pa je, da je direktor OpenAI, Sam Altman, tudi velik lastnik Reddita. V preteklosti je bil tudi član Sveta Reddita, tako da je OpenAI zelo verjeten glavni ali eden izmed partnerjev za takšno pogodbo. Reddit je v preteklosti dovoljeval dostop do svojih vsebin, nato ga je zaprl in sedaj je očitno dovolil lastnikom LLM dostopati do API povezave in jim s tem omogoča dostop do najnovejših vsebin vsako sekundo.

S tem se lahko postavlja tudi nov mejnik v licenciranju vsebin, ki bodo uporabljene za treniranje velikih jezikovnih modelov.

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja