in

Ny AI-teknologi revolusjonerer talegjenkjenning: Få bedre resultater med halvert ressursbruk

Kunstig intelligens (AI) har forvandlet mange aspekter av vår teknologihverdag, og ett av de viktigste områdene er automatisert talegjenkjenning (ASR). Dette feltet handler om å transkribere muntlig tale til tekst, og teknologien brukes i alt fra virtuelle assistenter og sanntidstranskripsjon til stemmestyrte systemer. ASR-systemer har blitt en integrert del av hvordan brukere samhandler med teknologi, og de gir blant annet mulighet til henderfri operasjon og øker tilgjengeligheten for flere grupper mennesker.

Økt behov for effektivitet

Ettersom etterspørselen etter ASR vokser, øker også behovet for modeller som kan håndtere lange taleuttrykninger effektivt samtidig som de opprettholder høy nøyaktighet – spesielt i sanntids- eller strømmescenarioer. En av de største utfordringene med dagens ASR-systemer er deres evne til å prosessere lange taleuttrykninger effektivt, særlig på enheter med begrensede ressurser, som mobiltelefoner.

Tidskompleksitet som flaskehals

Dagens ASR-modeller blir stadig mer komplekse etter som lengden på taleinnputten øker. Flere av disse systemene baserer seg på selvoppmerksomhetsmekanismer, som multi-head self-attention (MHSA), for å fange opp globale interaksjoner mellom akustiske rammer. Selv om dette er effektivt, har slike systemer kvadratisk tidskompleksitet, noe som betyr at tiden det tar å prosessere tale øker eksponentielt med lengden på input. Dette skaper en kritisk flaskehals når ASR implementeres på enheter med lav forsinkelse og begrenset kapasitet, som nettbrett eller innebygde systemer.

Forsøk på å redusere belastningen

Flere metoder har blitt foreslått for å redusere den beregningsmessige belastningen i ASR-systemer. Mens MHSA er populært på grunn av sin evne til å fange opp detaljerte interaksjoner, er det ineffektivt i strømmeapplikasjoner på grunn av sine høye krav til beregning og minne. Forskere har derfor eksperimentert med alternativer som lav-rang approksimasjoner, linearisering og sparsifisering av selvoppmerksomhetslag, samt innovasjoner som Squeezeformer og Emformer, som fokuserer på å redusere innsekvensens lengde.

Disse tilnærmingene begrenser imidlertid bare de negative effektene av kvadratisk tidskompleksitet uten å eliminere dem, noe som resulterer i begrensede gevinster i effektivitet.

Nye banebrytende metoder introduseres

Forskere fra Samsung AI Center i Cambridge har nå introdusert en ny metode kalt SummaryMixing, som reduserer tidskompleksiteten i ASR fra kvadratisk til lineær. Denne tilnærmingen, som integreres i en såkalt conformer-transducer-arkitektur, tillater mer effektiv talegjenkjenning for både strømming og ikke-strømming. Conformerbaserte transducere er mye brukt i dagens ASR-modeller for deres evne til å håndtere store sekvenser uten å ofre ytelse.

SummaryMixing forbedrer conformerens effektivitet betydelig, spesielt i sanntidsapplikasjoner, ved å erstatte MHSA med en mer effektiv mekanisme som oppsummerer hele innvekslingssekvensen til en enkelt vektor. Dette muliggjør raskere prosessering av tale med mindre beregningsressurser.

Oppsummering som effektiviseringsgrep

Den nye metoden fungerer ved å transformere hver ramme av taleinnputten med en lokal ikke-linear funksjon, mens hele sekvensen samtidig oppsummeres til en enkelt vektor. Deretter blir vektoren kombinert med hver ramme, som sikrer at de globale relasjonene mellom rammene bevares, samtidig som den beregningsmessige kompleksiteten reduseres. Dette tillater systemet å opprettholde samme nøyaktighet som MHSA, men med en brøkdel av beregningskostnaden.

For eksempel viste evalueringer på Librispeech-datasettet at SummaryMixing oppnådde en word error rate (WER) på 2,7 % på «dev-clean»-settet, sammenlignet med MHSA’s 2,9 %. Metoden viste enda større forbedringer i strømmedatascenarier, der WER ble redusert fra 7,0 % til 6,9 % for lengre uttrykninger. I tillegg trenger SummaryMixing betydelig mindre minne, med en reduksjon i maksimal VRAM-bruk på mellom 16 % og 19 %, avhengig av datasettet.

Testet på ulike datasett

Forskerne gjennomførte også eksperimenter for å validere effektiviteten til SummaryMixing ytterligere. På Librispeech-datasettet reduserte systemets treningstid med 15,5 % færre GPU-timer sammenlignet med MHSA, noe som resulterte i raskere modellutrullinger. Når det gjaldt minnebruk, reduserte SummaryMixing maksimal VRAM-bruk med 3,3 GB for lange taleuttrykninger. Systemets ytelse ble også testet på Voxpopuli-datasettet, som er mer utfordrende på grunn av varierte aksenter og opptaksforhold. Her oppnådde SummaryMixing en WER på 14,1 % i strømme-scenarier, sammenlignet med 14,6 % for MHSA, samtidig som det brukte uendelig venstre-kontekst for betydelig forbedret nøyaktighet.

Fremtiden for virkelig tid ASR

SummaryMixing-metodens skalerbarhet og effektivitet gjør den til en ideell løsning for ASR-applikasjoner i sanntid. Den lineære tidskompleksiteten sikrer at den kan prosessere lange sekvenser uten den eksponentielle økningen i beregningskostnadene som assosieres med tradisjonelle selvoppmerksomhetsmekanismer. I tillegg til å forbedre WER og redusere minnebruk, gjør methoden det også mulig å håndtere både strømme- og ikke-strømmeoppgaver med en enhetlig modellarkitektur – noe som forenkler implementeringen av ASR-systemer på tvers av forskjellige brukscase.

Ved å integrere dynamisk chunk-trening og konvolusjonale lag forbedres også modellens evne til å operere effektivt i sanntidsmiljøer, noe som gjør den til en praktisk løsning for moderne ASR-behov.

For mer informasjon om dette, ta gjerne en nærmere titt på marktechpost.com.