Tehnologija prevajanja govora v realnem času je v zadnjih letih doživela hiter razvoj, pri čemer pomembno vlogo igrajo napredki v umetni inteligenci. Nova funkcija, ki omogoča neposredno prevajanje prek brezžičnih slušalk, temelji na obdelavi naravnega jezika (NLP) in algoritmih strojnega učenja za prepoznavanje govora, razumevanje konteksta ter tvorjenje prevodov. Pristop podjetja Apple z AirPods Pro 3 je zadnji v nizu poskusov, da bi to tehnologijo približali širši uporabi, vendar ni edini na trgu – podobne rešitve ponujajo tudi Google Pixel Buds in različne aplikacije za pametne telefone.
Kako deluje prevajanje v živo v AirPods Pro 3?
Prevajanje v živo se pri AirPods Pro 3 izvaja z uporabo Applovih algoritmov za prepoznavanje govora in prevajanje, ki tečejo v tesnem sodelovanju z iPhonom. Ko uporabnik posluša pogovor v tujem jeziku, slušalke posnamejo govor, ga pošljejo na obdelavo v napravo, kjer umetna inteligenca prepozna izgovorjene besede, jih razdela na pomene in nato v nekaj trenutkih ustvari sinhroniziran prevod. Po podatkih iz predstavitve znaša zakasnitev med izgovorjeno besedo in prevodom le nekaj sekund.
Apple na začetku podpira več kot 15 jezikov, vključno z angleščino, španščino, kitajščino, francoščino in japonščino, pri čemer načrtuje postopno širjenje nabora jezikov preko posodobitev. Funkcija je neposredno vključena v sistem in ne zahteva dodatne aplikacije ali internetne povezave za osnovno delovanje, saj velik del obdelave poteka na samem telefonu. Uporabniki lahko izberejo ciljni jezik in način prikaza prevoda, kar omogoča prilagoditve glede na situacijo.
Primer uporabe v praksi je prikazan na predstavitvah, kjer dva sogovornika govorita vsak v svojem jeziku, slušalke pa omogočajo razumevanje v realnem času. Tako lahko turist naroči hrano v tuji restavraciji ali poslovnež vodi sestanke z mednarodnimi partnerji brez tolmača. Nekatere rešitve, kot so Google Pixel Buds, uporabljajo podobne prijeme, a pogosto zahtevajo stalno internetno povezavo ali imajo večjo zakasnitev.
Omejitve, izzivi in (ne)izpolnjene obljube tehnologije
Napredna tehnologija še vedno ni brez omejitev. Prevodi v realnem času so lahko manj natančni v hrupnem okolju ali pri hitrem, narečnem govoru, kjer umetna inteligenca težje sledi kontekstu in intonaciji. Testiranja kažejo, da uspešnost prepoznavanja govora in prevajanja še vedno zaostaja za profesionalnimi tolmači, saj so prevodi lahko manj naravni ali slovnično nepravilni. Poraba baterije se pri uporabi te funkcije znatno poveča, saj je za obdelavo potrebna stalna analiza zvočnega toka in delovanje procesorja.
Vprašanja odpira tudi zasebnost. Čeprav Apple trdi, da se govor obdeluje lokalno, je za naprednejše funkcije ali razširjene jezikovne modele potrebna povezava v oblak, kar lahko pomeni prenos občutljivih podatkov. To je izziv tudi za druge ponudnike: Google in Samsung npr. uporabljata kombinacijo lokalne in oddaljene obdelave podatkov. Etične dileme se pojavljajo pri snemanju pogovorov brez soglasja vseh udeležencev, zato je pomembno, da uporabniki razumejo pravne in družbene posledice uporabe takih naprav v javnosti.
Primerjava z drugimi rešitvami pokaže, da imajo Applovi algoritmi prednost v hitrosti, a ne nujno v natančnosti. Medtem ko so Google Translate, Microsoft Translator in druge aplikacije že uveljavljene, so njihove rešitve pogosto bolj prilagodljive v smislu podpore jezikom in prevajanja zapletenih stavkov. Napovedi strokovnjakov za obdelavo naravnega jezika so, da bo napredek v strojni obdelavi govora in večja vključenost kontekstualnega učenja v prihodnje zmanjšala te razlike.

