in

Menneskelignende samtaler i sanntid med minimal forsinkelse

Utviklingen innen samtaledrevne systemer har tatt store steg fremover i løpet av de siste årene. Fra enkle stemmestyrte grensesnitt, har vi nå komplekse modeller som kan opprettholde samtaler i sanntid. Sistnevnte gjelder spesielt for populære assistenter som Siri, Alexa og Google Assistant, som innledet en ny æra av stemmeaktiverte interaksjoner. Disse systemene var imidlertid begrenset til enkle oppgaver som å gi informasjon eller styre enheter. Nå har store språkmodeller (LLMs) som GPT og Gemini utvidet rekkevidden til å håndtere mer komplekse samtaler som går over flere turer og åpne ender. Likevel sliter dagens teknologi fremdeles med å gjenskape samtaler som er preget av raskt tempo og overlappende tale, noe som er vanlig i menneskelige samtaler.

Et nøkkelproblem for dagens stemmebaserte samtalesystemer er forsinkelser på grunn av sekvensiell behandling av flere komponenter. En typisk samtaleprosess består av forskjellige trinn som talegjenkjenning, tekstbehandling, generering av svar, og til slutt talegjengivelse. Hvert av disse trinnene tilfører litt forsinkelse, noe som ofte resulterer i en ventetid på flere sekunder, langt fra de kjappe vekslene vi finner i virkelige samtaler. De fleste systemer opererer i turbaserte strukturer, der én taler må fullføre før den neste kan svare. Dette fanger ikke opp den naturlige flyten i samtaler, der ikke-verbale signaler som følelser, intonasjon, og overlappende tale spiller en viktig rolle.

Til tross for at de fleste taledrevne systemer i dag bruker en slik pipeline-modell, hvor tale først konverteres til tekst via automatisk talegjenkjenning (ASR), er det tydelig at de ikke klarer å håndtere mer komplekse interaksjoner. Programmer som bare fungerer godt i forhold til enkle oppgaver, som å spørre om været eller sette en alarm, taper i mer sofistikerte dialoger. Siden disse modellene behandler samtaler i tekstdomener, går viktige ikke-verbale aspekter, som emosjonelle eller kontekstuelle lydsignaler, tapt og reduserer dermed samspillet med brukeren.

Forskerne ved Kyutai Labs har i denne sammenhengen lansert Moshi, et banebrytende samtalesystem i sanntid som muliggjør full-dupleks kommunikasjon. I motsetning til tradisjonelle systemer, som tvinger en turn-taking struktur, tillater Moshi en kontinuerlig og uavbrutt samtale der både brukeren og systemet kan snakke og lytte samtidig. Modellen bygger på en språkmodell kalt Helium som har 7 milliarder parametere, trent på over 2.1 billioner engelske token. Denne teksten gir systemet både resonneringsevner og støtte fra en mindre lydmodell kalt Mimi, som behandler tale i sanntid gjennom et nevralt lydkodeks. Den doble strømmen av data gjør at turn-taking ikke er nødvendig, noe som fører til en mer naturlig, menneskelignende flyt i samtaler.

Moshi’s arkitektur introduserer også flere innovative funksjoner, inkludert teknologien “Inner Monologue”. Denne metoden organiserer tekst- og lydtoken i et hierarkisk system slik at systemet kan generere taler som er både sammenhengende og kontekstuelt nøyaktige, samtidig som responsene kommer i sanntid. Moshi har en teoretisk latenstid på kun 160 millisekunder, mens praktiske målinger viser 200 millisekunder—betydelig lavere enn flere-sekunders forsinkelser vi ser i konkurrerende systemer. Modellen takler flere strømminger samtidig, slik at den både kan lytte til og forstå komplekse dynamiske samtaler.

Testresultatene demonstrerer at Moshi leverer enestående ytelse på tvers av flere parametere. Når det gjelder talekvalitet, klarer systemet tydelig å reprodusere klar og forståelig tale, selv i utfordrende situasjoner med støy eller overlappende lyd. Systemet kan opprettholde lange samtaler, med kontekster som strekker seg over fem minutter, og det presterer eksepsjonelt godt i oppgaver hvor den besvarer muntlige spørsmål. I motsetning til tidligere modeller, der talerne må ta tydelige ‘turer’ for å snakke, tilpasser Moshi seg dynamikken i ekte samtaler med minimal forsinkelse. Modellen har en latenstid som faktisk nærmer seg de 230 millisekunder som ofte måles i menneske-til-menneske interaksjoner, noe som gjør Moshi til den første modellen som virkelig kan levere øyeblikkelige svar i sanntid.

Moshi-modellen er dessuten gjenstand for omfattende tester som bekrefter ytelsen dens over et bredt spekter av samtaleoppgaver. Modellens effektivitet ble evaluert i forhold til tekstforståelse, taleforståelighet og konsistens. Gjennom såkalte ablasjonsstudier, hvor visse komponenter fjernes eller endres, har det blitt vist at funksjoner som hierarkisk tokengenerering og “Inner Monologue” er essensielle for at modellen skal fungere optimalt. Dette har ført til at Moshi yter bedre enn eksisterende modeller, spesielt i krevende tester som krever at den besvarer avanserte spørsmål i sanntid, uten å ofre ytelse.

Til slutt representerer Moshi et betydelig fremskritt innen samtaledrevne systemer. Ved å takle de største utfordringene, som forsinkelse, turbasering og ikke-verbal kommunikasjon, leverer Moshi en samtaleopplevelse som er langt mer dynamisk og naturlig. Kombinationen av Heliums omfattende tekstforståelse og Mimis sanntids lydkoding gjør at Moshi evner å generere samtaler som reflekterer kompleksiteten i menneskelig tale. Ikke bare reduseres responstiden til det som nesten ikke er mulig å merke for brukeren, men systemet klarer også å tolke emosjonelle og kontekstuelle signaler som forbedrer opplevelsen betraktelig. Med sin nyskapende ytelse og evne til å håndtere lange, kontinuerlige samtaler setter Moshi en ny standard for fremtidens talebaserte interaksjonssystemer.

Kilde: marktechpost.com