Stadig flere spørsmål dukker opp om hvordan LLM-modeller (Large Language Models) lagrer og bruker minner, spesielt i lys av deres imponerende evne til å etterligne menneskelige språkferdigheter. Selv om mennesker benytter eksterne lagringssystemer (hukommelse) for daglige oppgaver, er LLMenes «hukommelse» utelukkende basert på innkommende informasjon fra data, snarere enn noe de har lagret permanent. Forskningsmiljøer har lenge jobbet med å forbedre disse modellene ved å utvide kontekstlengden og integrere eksterne minnesystemer. Disse tiltakene har imidlertid ikke fullt ut forklart hvordan hukommelse fungerer i slike modeller.
LLMer kan til tider gi utdaterte svar eller informasjon, noe som antyder at de har en form for hukommelse. Men den nøyaktige karakteren av denne hukommelsen er fortsatt diffus. Å forstå hvordan LLMens minne avviker fra menneskelig hukommelse er avgjørende for videre utvikling av kunstig intelligens og dens bruksområder.
Ny innsikt fra Hong Kong Polytechnic University
Forskere ved Hong Kong Polytechnic University har i en ny studie forsøkt å forklare LLMenes hukommelse ved hjelp av den universelle approksimasjonsteoremet (UAT). De introduserer begrepet «Schrödingers hukommelse»; en type hukommelse som kun blir synlig når den blir undersøkt, siden dens eksistens ellers er ubestemmelig. Ved hjelp av UAT argumenterer forskerne for at LLMer dynamisk tilpasser seg tidligere informasjon basert på innkomne data, på en måte som ligner på hukommelse.
Studien innfører en ny metode for å vurdere LLMenes evne til å huske, og sammenligner modellens hukommelsesevner og resonnement med menneskers. Dette belyser både likheter og forskjeller mellom metoder for menneskelig hukommelse og maskinlæring.
Transformere og den universelle approksimasjonsteoremet
Den universelle approksimasjonsteoremet er fundamentet i dyp læring og forklarer hvordan hukommelse fungerer i LLMer, særlig de med transformatorarkitektur. UAT viser at nevrale nettverk kan tilnærme enhver kontinuerlig funksjon. I transformermodeller justerer lagene sine parametere i sanntid mens de behandler informasjon, noe som gjør modellen i stand til å tilpasse seg ulike typer informasjon basert på inndata.
Dette skjer spesielt gjennom mekanismen «multi-head attention», som bidrar til at parametrene i modellen endres dynamisk etter hva slags input som behandles. Denne justeringen muliggjør at LLMer har minnelignende evner og gir dem muligheten til å hente opp og bruke tidligere detaljer når de blir forespurt.
Eksperimenter avslører minneevnene til modeller
I studien utførte forskerne eksperimenter som testet LLMenes hukommelsesegenskaper. Minne ble definert som noe som krever både input og output: hukommelsen aktiveres ved input, og output kan bli enten korrekt, ukorrekt eller glemt. Modellenes evne til å hente fram informasjon basert på minimalt med input ble testet ved hjelp av kinesiske og engelske diktdatabaser.
Resultatene viste at større modeller med mer avansert språkforståelse presterte betydelig bedre. Samtidig ble det avdekket at lengre tekstinput reduserte nøyaktigheten i hukommelsen, noe som indikerer en sammenheng mellom mengden input og modellens evne til å huske korrekt informasjon.
LLMer sammenlignes med menneskelig kognisjon
Studien konkluderer med at LLMene faktisk innehar hukommelses- og resonnementsevner som i mange tilfeller minner om menneskelig kognisjon. Både mennesker og LLMer genererer dynamisk output basert på tidligere lærdom, i stedet for å ha statisk lagret informasjon. Forskerne antyder at både menneskehjerner og nevrale nettverk tilpasser seg input på en dynamisk måte, noe som fremmer kreativitet og tilpasningsevne.
Man peker også på at begrensningene i modellens resonnement kan skyldes faktorer som modellstørrelse, datakvalitet og arkitektur. Et parallelt eksempel på menneskelig dynamisk læring blir trukket fram i forbindelse med den kjente hjerneskade-pasienten Henry Molaison, som illustrerer hvordan hjernen konstant tilpasser seg til ny læring.
Schrödingers hukommelse: bare synlig når den aktiveres
Til slutt setter forskerne søkelyset på LLM-modellenes dynamiske evner, der minneegenskapene bare blir synlige når spesifikke input utløser dem. Gjennom den universelle approksimasjonsteoremet forklarer de modellens dynamiske tilpasning til input, og resultatene fra forskningen gir videre teoretiske og praktiske bevis på at LLMene har minnekapasitet.
Verktøyet «Schrödingers hukommelse» illustrerer både likheter og forskjeller mellom hvordan mennesker og LLMer lagrer og bruker minner. Studien åpner for viktige diskusjoner om LLMenes rolle i fremtidig AI-utvikling, særlig når det gjelder modeller som kan lære på tvers av ulike innputsituasjoner og tilpasse sine resonnementer dynamisk.
Kilder: marktechpost.com