Jezik i umjetna inteligencija: Ogromna količina sadržaja na internetu već sad je 'strojno prevedeno smeće'

Jezične tehnologije: Evo koje sve probleme generiraju softveri i alati za prevođenje s umjetnom inteligencijom…

“Šokantna” količina sadržaja na internetu već sad je strojno prevedeno smeć e, osobito na jezicima koji se govore u Africi i na globalnom jugu, pokazalo je novo istraživanje.

Istraživači laboratorija za umjetnu inteligenciju Amazon Web Services (AWS) otkrili su da je više od polovice rečenica na webu prevedeno na dva ili više jezika, uz sve goru kvalitetu zbog lošeg strojnog prijevoda, za što su rekli da izaziva “ozbiljnu zabrinutost”.

Zainteresirali smo se za ovu temu jer je nekoliko kolega koji rade na strojnim prijevodima (MT) i izvorni su govornici manje zastupljenih jezika, koji su poznati kao jezici s “niskim resursima”, primijetilo da je velik dio internetskog sadržaja na njihovom materinskom jeziku zapravo strojni prijevod”, rekao je za portal Motherboard Mehak Dhaliwal, bivši pripravnik primijenjene znanosti u AWS laboratoriju i trenutni doktorand na Kalifornijskom sveučilištu u Santa Barbari. “Dakle, uvid je doista došao od izvornih govornika tzv. ‘malih jezika’, a mi smo proveli studiju kako bismo bolje razumjeli problem i vidjeli koliko je raširen.”

“Svatko bi trebao biti svjestan da je sadržaj koji čita na webu možda generirao stroj,” dodao je Dhaliwal.

Studija, koja je prošlog četvrtka predana poslužitelju arXiv, generirala je korpus od 6,38 milijardi rečenica sastruganih s weba. Studija je proučavala paralelizam – obrasce simetričnih konstrukcija sličnih riječi. Obrasci opisuju skupove rečenica koje su, inače, izravni prijevodi na tri ili više jezika. Utvrđeno je da je većina interneta prevedena, budući da je 57,1 posto rečenica u korpusu bilo višesmjerno paralelno na najmanje tri jezika.

Jezici s niskim resursima imaju loše prijevode

Kao svi pokušaji strojnog učenja, strojno prevođenje je pod utjecajem ljudskih pristranosti i naginje više jezicima koji se govore u zapadnom svijetu i na globalnom sjeveru. Zbog toga kvaliteta prijevoda jako varira, a jezici s “niskim resursima”, poput onih iz Afrike, nemaju dovoljno podataka da bi se uspio napraviti točan prijevod, odnosno, točan tekst.

“Općenito, primijetili smo da većina jezika ima paralelne podatke u jezicima s najvišim resursima”, rekao je Dhaliwal. “Vjerojatnije je da će rečenice imati prijevode na francuski, nego na jezik s niskim resursima, jednostavno zato što postoji mnogo više jezičnih podataka na francuskom nego na tzv. malom jeziku.”

Jezici s visokim resursima, poput engleskog ili francuskog, imali su prosječni paralelizam 4, što znači da su rečenice imale prijevodne ekvivalente na tri druga jezika. Jezici s niskim resursima, poput afričkih jezika Wolof ili Xhosa, imali su prosječni paralelizam od 8,6. Osim toga, jezici s niskim resursima imali su mnogo lošije prijevode.

“Smatramo da su višesmjerni paralelni prijevodi znatno niže kvalitete od dvosmjernog paralelnog prijevoda”, navode istraživači u radu. “Što je rečenica prevedena na više jezika, to su prijevodi niže kvalitete, što pak ukazuje na veću zastupljenost strojnog prevođenja.”

To znači da je velik dio tekstova na internetu, na jezicima s niskim resursima zapravo loš strojni prijevod, što postavlja pitanja oko razvoja velikih jezičnih modela na tim jezicima, rekli su istraživači.

“Moderna umjetna inteligencija postoji zbog ogromnih količina podataka i alata za obuku, obično nekoliko stotina milijardi tokena do nekoliko trilijuna tokena”, navodi se u studiji. “Obuka na ovoj razini moguća je samo uz podatke prikupljene s weba. Naši nalazi izazivaju zabrinutost za višejezične graditelje modela: tečnost i točnost niži su kod podataka iz strojnih prijevoda, a pristranost odabira ukazuje da bi podaci mogli biti niže kvalitete, čak i prije razmatranja je li došlo do pogreške u strojnom prijevodu”, navode znanstvenici.