in

Dette avslører forskningen: Er GPT-4 like pålitelig som vi tror?

Kunstige intelligensmodeller, som GPT-4, har vært et sentralt fokus i AI-verdenen på grunn av deres evne til å håndtere ulike oppgaver, fra tekstgenerering til løsning av komplekse matematiske problemer. Disse modellene har vist seg å ha kapasiteter langt utover deres opprinnelige design, som primært var å forutsi neste ord i en sekvens.

Mens bruken av LLMs (Large Language Models) strekker seg over mange industrier, inkludert automatisering av dataanalyse og utførelse av kreative oppgaver, er en viktig utfordring å evaluere deres reelle ytelse pålitelig. Å forstå hvor godt LLMs håndterer deterministiske oppgaver, som telling og enkel aritmetikk, er spesielt viktig fordi disse oppgavene gir klare, målbare resultater. Kompleksteten øker når selv enkle oppgaver avslører inkonsekvenser i LLM-ytelse.

Problemer med vurdering av nøyaktighet

En av hovedproblemene denne forskningen tar opp, er vanskeligheten med å vurdere nøyaktigheten til LLMs som GPT-4. Deterministiske oppgaver med en eksakt løsning er en ideell testbenk for å evaluere disse modellene. GPT-4s ytelse kan imidlertid variere mye, ikke bare på grunn av oppgavens iboende vanskelighetsgrad, men også på grunn av små variasjoner i hvordan spørsmål er formulert eller i karakteristikkene til inngangsdataene. Disse subtile faktorene kan føre til resultater som utfordrer muligheten til å generalisere modellens kapasiteter.

Forskningsmetodikk

Eksisterende metoder for å vurdere LLM-ytelse involverer typisk kjøring av deterministiske oppgaver som tillater klare, entydige svar. I denne studien testet forskerne GPT-4s evne til å telle elementer i en liste, utføre lange multiplikasjoner og sortere tall. For eksempel, i en oppgave der modellen måtte bestemme hvor mange ganger ordet “mango” dukket opp i en liste, var GPT-4s ytelse ikke konsistent. I 500 forsøk på en liste med en lengde på 20, fikk GPT-4 riktig svar 48,2 % av gangene, men små endringer i formulering eller objektfrekvens førte til betydelig forskjellige resultater.

Metodens følsomhet overfor parameterendringer

Forskerteamet fra Microsoft Research introduserte en ny metode for å evaluere LLMs følsomhet for endringer i oppgaveparametere. De fokuserte på deterministiske oppgaver, som telling og lang multiplikasjon, under ulike forhold. For eksempel ba ett sett med forsøk GPT-4 om å telle forekomster av ord i lister med forskjellige lengder, mens et annet fokuserte på multiplikasjon av to 4-sifrede tall. Resultatene viste at små modifikasjoner, som omformulering av oppgavens instruksjon eller endring av listekomposisjon, resulterte i store ytelsesvariasjoner.

Evaluering på tvers av ulike oppgaver

Forskerne målte også GPT-4s ytelse på tvers av oppgaver, som å finne maksimum og median og sortering av tall i en liste. I en median-finnende oppgave oppnådde GPT-4 kun en suksessrate på 68,4 % for lister som inneholdt flyttall, og denne raten sank etter hvert som antallet elementer i listen økte. Når modellen ble bedt om å sortere en liste med tall og tilhørende navn, sank nøyaktigheten betydelig, med en suksessrate under 55,0 %. Disse eksperimentene avdekker hvor skjør modellens ytelse er når det gjelder oppgaver som krever nøyaktig håndtering av strukturert data.

Konklusjon

Forskningsresultatene fremhever en kritisk utfordring i å vurdere kapasitetene til store språkmodeller. Mens GPT-4 viser en rekke sofistikerte atferder, avhenger dens evne til å håndtere selv enkle oppgaver i stor grad av den spesifikke formuleringen av spørsmål og inngangsdatastrukturen. Disse funnene utfordrer ideen om at LLMs kan stole på å utføre oppgaver pålitelig på tvers av forskjellige kontekster.

Avslutningsvis viser denne forskningen begrensningene til GPT-4 og andre LLMs når de utfører deterministiske oppgaver. Selv om disse modellene viser potensial, er deres ytelse svært følsom for små endringer i oppgavebetingelser. Forskerne demonstrerte at GPT-4s nøyaktighet kunne falle fra nær perfekt til nesten tilfeldig bare ved å endre inngangsdata eller omformulere spørsmålet. Eksempelvis var modellens evne til å multiplisere to 2-sifrede tall perfekt, men dens nøyaktighet for multiplikasjon av to 4-sifrede tall falt til bare 1,0 %. Resultatene antyder at forsiktighet er nødvendig når man tolker påstander om LLMs kapasiteter, og det er viktig å utvikle mer rigorøse evalueringsmetoder for å vurdere deres sanne kapasiteter.

Kilde: MarkTechPost