Ezek azok a nyelvek, amikkel esélye sincs a Google fordítónak

Ezek azok a nyelvek, amikkel esélye sincs a Google fordítónak

Címlap / Kikapcsolódás / Tech és kütyük / Ezek azok a nyelvek, amikkel esélye sincs a Google fordítónak

A világon több mint 7000 nyelv létezik, amelyek közül 4000 írott. Mégis csak körülbelül 100 fordítható olyan automatizált eszközökkel, mint a Google Fordító. Az új kutatások azt ígérik, hogy a többiekkel is képesek leszünk majd használni ezeket a programokat.

Egy angol nyelvű cikk magyarra fordítása már akkor sem okoz gondot, ha egyáltalán nem beszéljük a nyelvet. A Google Fordítóba másolt szöveg ha nem is tökéletes magyarsággal jelenik meg a másik ablakban, nagy valószínűséggel értelmezhető lesz, sőt akár egész mondatok, bekezdések is kaphatnak tökéletes fordítást.

A problémás nyelvek

Ugyanakkor sok olyan nyelv van, amit a mai napig nem tud megfejteni a gépi fordító. Közöttük nem csak apró, néhány beszélő által használt nyelvek, de akár milliók által anyanyelvként használt változatok is vannak. Ilyenek például a wolof, a luganda, az afrikai twi és ewe. Ez azért van, mert az ezeket a motorokat működtető algoritmusok az emberi fordításokból tanulnak – ideális esetben több millió szavas lefordított szövegből.

Az olyan nyelvekből, mint az angol, a francia, a spanyol vagy a német, de akár a magyar is, rengeteg ilyen írásos anyag érhető el az interneten. Nem tartozik szorosan ide, de itt jegyzem meg, hogy éppen ezért fordulhat elő, hogy az „ő mos” „ő főz” „ő takarít” példamondatokat a fordítóprogram nőnemben, „she”-re fordítja, míg például az „ő szerel” hímnemű, „he” lesz. Természetesen nem az algoritmus a szexista, csak ezt tanulta meg abból, ahogyan minket „lát” beszélni az interneten.

Miért nem működik minden nyelvvel?

Visszatérve a fordított szövegekre, amikből a program tanítja önmagát. Az emberi fordítók által fordított és több nyelven is elérhető dokumentumok hatalmas adatbázist kínálnak. Csak az Európai Parlament 1,37 milliárd szóból álló adatgyűjteményt készít 23 nyelven egy évtized alatt.

Nincs azonban ilyen adathegy az olyan nyelvek esetében, amelyeket ugyan széles körben beszélnek, de nem annyira gyakran fordítanak. Ezek a kevés erőforrással rendelkező nyelvek, ahol a gépi fordításhoz szükséges adatbázis sokszor legfeljebb a Bibliából áll.

Ez azonban egy elég szűk forrás, ráadásul a nyelvhasználat sokszor nem is feltétlenül esik egybe az adott nyelvben gyakrabban használt regiszterekkel. Például azzal, ahogyan a postánál, az orvosnál vagy a családi asztalnál beszélnek az emberek. Ez természetesen nem elegendő pontos, széles tartományú automatizált fordításokhoz.

Ilyen nyelv például az Odia, az indiai Odisha állam hivatalos nyelve, 38 millió beszélővel, amely nincs jelen a Google Fordítóban. Továbbá ilyen nyelv az Oromo is, amelyet 34 millió ember beszél, többnyire Etiópiában, és amelynek Wikipédiájában mindössze 772 cikk található.

VIDEO Üde tavaszi barackos smink

Kövesd a Bien.hu cikkeit a Google Hírek-ben is!

Oldalak: 1 2

»