Spor med Cloudflare in Perplexity razkriva temne plati zbiranja spletnih vsebin za umetno inteligenco

V začetku junija 2024 se je v tehnološki skupnosti razvnela ostra razprava o etiki in mejah spletnega zbiranja podatkov za umetno inteligenco. Cloudflare je javno obtožil Perplexity AI, da kljub tehničnim blokadam nadaljuje s pobiranjem vsebine spletnih strani. Ta primer ni ostal neopažen, saj se dotika bistvenih vprašanj sodobnega spleta, kot so zaščita intelektualne lastnine, pravica do vsebine in razvoj umetne inteligence.

Primeri obvodov: uporabniški agenti in spregledani ukazi robots.txt

Cloudflare je v svojem poročilu natančno opisal, kako so njihovi sistemi zaznali obnašanje Perplexity AI. Eden od konkretnih primerov vključuje uporabo prilagojenih User-Agent stringov, kot so “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36”, ki se sicer uporablja za identifikacijo popularnih brskalnikov, a so ga Perplexityjevi roboti uporabili za prikrivanje svoje prave identitete. Prav tako je bil opažen promet z User-Agent-i kot sta “Applebot” in “Bingbot”, čeprav so spletne strani eksplicitno prepovedale dostop tem botom v svojih robots.txt datotekah, na primer z vrstico `User-agent: PerplexityBot` in `Disallow: /`.

Kljub navodilom v robots.txt datotekah, kot so:

“`
User-agent: PerplexityBot
Disallow: /
“`

so Cloudflarejevi sistemi zaznali dostop Perplexityjevih orodij do zaščitenih virov. Ta vzorec kaže na **zavestno ali tehnično sofisticirano zaobidenje** navodil s strani AI podjetja, kar je v stroki široko obsojeno.

Podrobnejši odziv Perplexityja in njihove rešitve

Perplexity AI se je na obtožbe Cloudflarea odzval s poudarkom, da ne nameravajo kršiti pravil ali zavajati upravljavcev spletnih strani. Po besedah podjetja je med vzroki za nepravilnosti več dejavnikov. **Prvi je uporaba starejših User-Agent-ov, ki so ostali v uporabi zaradi počasnega osveževanja internih sistemov**, kar pomeni, da so roboti Perplexityja še vedno uporabljali imena, kot sta “Applebot” ali “Bingbot”, namesto svojega prepoznavnega User-Agent-a.

Poleg tega Perplexity navaja, da njihove procese zbiranja podatkov dopolnjujejo tretji ponudniki (t. i. third-party data providers), kot so zunanji partnerji, ki jim pomagajo pri širšem dosegu vsebin. Podjetje ni objavilo točnega seznama teh ponudnikov, je pa poudarilo, da njihovi partnerji morda niso vedno v celoti usklajeni z najnovejšimi navodili oziroma blokadami, kar lahko povzroči neželene incidente.

**Perplexity je napovedal temeljito revizijo svojih sistemov, vključno z uvajanjem centraliziranih seznamov dovoljenih in prepovedanih spletnih mest**, ter izboljšanje nadzora nad partnerji. Prav tako so že začeli aktivno komunicirati z založniki, da zagotovijo spoštovanje njihovih želja in ažurno prilagajajo svoje uporabniške agente.

Strokovno mnenje: etika, varnost in pravni izzivi

Neodvisni strokovnjaki za varnost, kot so svetovalci iz organizacij za kibernetsko varnost, opozarjajo, da je manipulacija z User-Agent stringi in ignoriranje robots.txt skrb vzbujajoča praksa, predvsem zato, ker spodkopava zaupanje v tehnične standarde spleta. **Strokovnjaki za etiko AI poudarjajo**, da je transparentnost bistvena, saj AI podjetja z množičnim zbiranjem vsebin bistveno vplivajo na poslovne modele spletnih založnikov in reality delitve vrednosti na spletu. Pravniki iz področja avtorskih pravic pa opozarjajo, da pravni okvirji na tem področju še niso jasno definirani, a **namenoma ignoriranje blokad lahko v prihodnje vodi do visokih odškodninskih tožb ali strožjih zakonodajnih ukrepov**.

Del širšega trenda v industriji umetne inteligence

Primer Perplexity ni osamljen incident. Že v preteklosti so se zoper podoben način zbiranja podatkov borili založniki proti OpenAI in Googleu, kjer so AI roboti kljub jasnim omejitvam v robots.txt še naprej zbirali vsebine. Take prakse so privedle do številnih odmevnih sporov, med katerimi je najbolj znan primer tožbe vodilnih ameriških medijskih hiš proti OpenAI zaradi nepooblaščenega pobiranja novinarskih člankov za trening jezikovnih modelov.

V celotni panogi opažamo trend, kjer AI podjetja iščejo obvode in nove načine dostopa do podatkov, medtem ko se spletni založniki pospešeno odločajo za zaščito svoje vsebine z močnejšimi tehničnimi (npr. napredni bot managerji) in pravnimi sredstvi, kot so pogodbe o izključnem dostopu in kolektivna pogajanja.

Predlogi za zaščito vsebine in iskanje kompromisa

Za učinkovito zaščito svoje vsebine spletni založniki lahko poleg robots.txt uporabljajo kompleksnejše rešitve, kot so **specifični algoritmi za zaznavanje botov, napredni wall-ingi (paywall, registration wall)** ter pogoste spremembe spletne strukture, ki otežujejo avtomatsko zbiranje. Priporočljivo je tudi sodelovanje z ponudniki varnostnih rešitev, kot je Cloudflare, ki nudijo napredna orodja za zaznavanje anomalij v prometu.

Na zakonodajni ravni bi bilo potrebno razmisliti o jasnejši regulaciji spletnega scrapinga, kjer bi bilo določeno, da je ignoriranje robots.txt in uporaba zavajajočih User-Agent stringov pravno prepovedano ter kaznovano. Prav tako je smiselno razmisliti o modelih, po katerih bi **AI podjetja lahko plačevala nadomestila za uporabo vsebin**, podobno kot pri zbiranju avtorskih honorarjev v glasbeni industriji.

**Idealni kompromis med potrebami AI podjetij in pravicami lastnikov vsebin** bi bil, da se vzpostavi odprt, pregleden sistem, v katerem lahko založniki jasno določijo, katera vsebina je na voljo za AI učenje, in za katero pričakujejo odškodnino ali drugačno nadomestilo – ter da AI podjetja popolnoma spoštujejo te izbire.

**Zgolj tehnična zaščita dolgoročno ne bo dovolj – potrebni so novi standardi sodelovanja in nadzora, ki bodo zaščitili vrednost domače vsebine ter obenem omogočili odgovoren razvoj umetne inteligence.**

Najnovejše objave

Lastniški deleži tehnoloških podjetij kot nova valuta pri nakupu nepremičnin v Silicijevi dolini

Anthropic odpira prihodnost: tržnica, kjer avtonomni agenti sklepajo posle namesto ljudi

Podatkovni centri, AI in okolje: kako digitalna infrastruktura spreminja pravila igre v Mainu in po svetu

Spor med Cloudflare in Perplexity razkriva temne plati zbiranja spletnih vsebin za umetno inteligenco

Zakaj start-upi v AI gradijo lastne podatkovne zaklade in postavljajo nova pravila igre

Zakaj Applove ključne strokovnjake za umetno inteligenco privablja Meta in kaj to pomeni za prihodnost AI

Pinterest omogoča izbiro: Prevzemite nadzor nad AI vsebino v svojem viru

Spotify v partnerstvu z založbami uvaja novo dobo generativne AI v glasbi

Jack & Jill z 20 milijoni dolarjev odpira novo poglavje pogovorne umetne inteligence v iskanju zaposlitve

Anthropic z novim Haiku modelom izziva konkurenco na področju hitre in dostopne umetne inteligence

Splošno o UI

Kaj sploh je Akt o UI in zakaj je pomemben?

Kalifornija prva uvaja stroga pravila za AI digitalne spremljevalce: kaj to pomeni za uporabnike in industrijo

Bivši britanski premier Rishi Sunak svetovalec Microsofta in Anthropica pri oblikovanju AI politik

Kalifornija uvaja prvi celovit zakon o varnosti umetne inteligence in izziva Evropo z novimi pravili

Kategorije

Najnovejše objave

Lastniški deleži tehnoloških podjetij kot nova valuta pri nakupu nepremičnin v Silicijevi dolini

Anthropic odpira prihodnost: tržnica, kjer avtonomni agenti sklepajo posle namesto ljudi

Podatkovni centri, AI in okolje: kako digitalna infrastruktura spreminja pravila igre v Mainu in po svetu

Najnovejše objave

Spor med Cloudflare in Perplexity razkriva temne plati zbiranja spletnih vsebin za umetno inteligenco

Primeri obvodov: uporabniški agenti in spregledani ukazi robots.txt

Podrobnejši odziv Perplexityja in njihove rešitve

Strokovno mnenje: etika, varnost in pravni izzivi

Del širšega trenda v industriji umetne inteligence

Predlogi za zaščito vsebine in iskanje kompromisa

Keep Reading

Splošno o UI

Kategorije

Najnovejše objave