Speechmatics Koristi AI za transkripciju jezika, a to je pobjeđuje Google

$config[ads_kvadrat] not found

Adobe Illustrator 2021 New Features in 5 Minutes!

Adobe Illustrator 2021 New Features in 5 Minutes!
Anonim

Spektmatici idu za Googleom. Britanski startup je prošlog mjeseca obustavio rad s Automatic Linguistom, snažnom umjetnom inteligencijom koja može naučiti bilo koji jezik za transkripciju govora u tekst u samo nekoliko dana. Tim želi omogućiti tehnologiju za svaki od oko 7.000 jezika na svijetu, s potencijalom za transformaciju života.

Od pokretanja lingvističkog alata, Speechmatics radi na Omniglotu, izazovu za izgradnju jezika dnevno. Prošlog tjedna tvrtka je postigla veliku prekretnicu: službeno je pobijedila Google, sa ukupno 72 jedinstvena jezika.

Sustav koristi strojno učenje kako bi uskladio audio podatke s kopijom transkripta. Zatim koristi jezične obrasce drugih jezika kako bi proces bio što jednostavniji, identificirajući sličnosti između zvukova i gramatičkih struktura i primjenjujući ih na nove jezike. Proces je vrlo učinkovit: primjerice, rad Speechmaticsa na Hindi trajao je samo dva tjedna da bi se postigla 80-postotna točnost. Kada je konačni proizvod testiran prema Googleovim naporima, učinio je 23 posto manje pogrešaka.

Inverzan razgovarao s Benediktom von Thüngenom, glavnim direktorom Speechmaticsa, kako bi saznao više.

Kako je vaš tim prvi put počeo raditi na projektu?

Pokrenuli smo projekt Omniglot kao izazov za sebe - vidjeti koliko ćemo jezika moći izgraditi za šest tjedana. Dugo smo shvatili da tradicionalni pristup izgradnje svakog jezika pojedinačno više nije održiv kada se radi o brzoj razmjeni. Imajući to na umu, morali smo ponovno razmisliti što je to jezik, kako je strukturiran i koje sličnosti postoje između različitih jezika. Pronašli smo način da te zajedničke značajke upotrijebimo za identificiranje uzoraka i da pomognemo našem okviru s automatskom lingvistom (AL), da izgrade jezike brže nego ikad - 46 u šest tjedana da budemo precizni, ili oko jednog jezika dnevno tijekom šest tjedana !

Kako se to razlikuje od Googleovih nastojanja?

Naš pristup izgradnji jezika jedan je od glavnih aspekata koji nas razlikuje od Googlea. Iako pretpostavljamo da izrađuju svoje jezike pojedinačno (ili ono što mi zovemo "brutalna sila"), koristimo snagu A.I. pojednostaviti i ubrzati proces izgradnje jezika. Osim toga, dok se druge usluge, kao što je Google, usredotočuju na izgradnju dijalekata, a ne na jedinstvene jezike, ponosni smo što možemo reći da su naši napori bili usmjereni na jedinstvene jezike iz cijelog svijeta, uključujući područja koja su prethodno bila nedovoljno podržana od strane velikih tehnoloških tvrtki.

Koje su neke od stvarnih aplikacija za to?

Sada imamo tehnologiju i znanje kako bismo našu uslugu učinili daleko dalekosežnijom nego ikada prije i donijeli automatsko prepoznavanje govora (ASR) svima. To je osobito važno u zemljama s niskim stopama pismenosti, gdje sposobnost korištenja komunikacije s tehnologijom govora u tekst koji je ranije bio nedostupan može napraviti razliku za ljude. Drugi slučajevi iz stvarnog života u kojima ASR tehnologija može pomoći s pitanjima pristupačnosti - slušatelji i / ili osobe oštećenog vida iz cijelog svijeta sada mogu koristiti uređaj kao jednostavan telefon za interakciju s onima oko sebe.

Da li to poboljšava točnost dobro pokrivenih jezika kao što je engleski?

Kako nastavljamo razvijati više jezika, naša A.I. Okvir će postati sve vještiji u prepoznavanju jezičnih značajki i obrazaca. To ćemo znanje upotrijebiti za nastavak usavršavanja naše trenutne jezične baze, uključujući i engleski.

Može li se time poboljšati nešto poput alata za prevođenje u stvarnom vremenu usluge Google Pixel Buds?

Definitivno vidimo projekte poput Omniglota koji pomažu unaprijediti alate za prevođenje u stvarnom vremenu. Kako se više resursa ulaže u širenje dosega i točnost jezika, vidjet ćemo stalno poboljšanje u sektoru prevoditeljskih usluga.

Radi li to na bilo kojem jeziku, čak i na jezicima poput klingonskog?

Moramo još pokušati izgraditi bilo kakve zaključke, ali ne vidimo razloga zašto ne bi radili. Kako ti ljudi još uvijek govore ljudi, oni također slijede slična strukturna pravila i ograničenja kao i svakodnevni jezici (kao što je broj fonema), što bi dalo dovoljno podataka za gradnju.

Jeste li otvoreni izvor projekta?

Ne, nemamo planove za to.

Kako će licenciranje funkcionirati?

Jezici koji se nude u projektu Omniglot su besplatni i ne mogu se koristiti u komercijalne svrhe. Kao takva, u doglednoj budućnosti neće biti dodijeljene nikakve licence.

Koji su sljedeći koraci odavde?

Projekt Omniglot je samo početak za nas. Želimo na kraju izgraditi svaki jezik na svijetu, tako da ćemo naporno raditi na tom cilju!

$config[ads_kvadrat] not found