in

Ny benchmark avslører sjokkerende svakheter i dagens AI-modeller: Sjekk om ditt forskningsprosjekt er i faresonen!

Kunstig intelligens (AI) og maskinlæring (ML) har vært transformative innen en rekke felt, men en betydelig utfordring gjenstår når det gjelder reproduserbarhet av eksperimenter. Forskere er ofte avhengige av tidligere publisert arbeid for å validere eller utvide sine funn. Denne prosessen innebærer ofte å kjøre kompleks kode fra forskningsrepositorier. Imidlertid er oppsettet av disse repositoriene, konfigureringen av miljøet og løsningen av ulike tekniske problemer, som utdaterte avhengigheter og feil, tidkrevende og krever ekspertise. Ettersom AI fortsetter å utvikle seg, leter forskere etter måter å automatisere disse oppgavene på for å fremskynde vitenskapelig oppdagelse.

En av de kritiske problemene med å reprodusere eksperimenter fra forskningsrepositorier er at disse ofte ikke er godt vedlikeholdt. Dårlig dokumentasjon og utdatert kode gjør det vanskelig for andre forskere å kjøre eksperimentene som tiltenkt. Dette problemet kompliseres ytterligere av de mange plattformene og verktøyene som kreves for å kjøre forskjellige eksperimenter. Forskere bruker betydelig tid på å installere avhengigheter, feilsøke kompatibilitetsproblemer og konfigurere miljøet for å møte de spesifikke behovene til hvert eksperiment. Å adressere dette problemet kan betydelig forbedre tempoet som oppdagelser valideres og utvides på innen det vitenskapelige samfunnet.

Historisk sett har metodene for å håndtere oppsett og gjennomføring av forskningsrepositorier stort sett vært manuelle. Forskere må ha en dyp forståelse av kodebasen og det spesifikke fagområdet for å løse problemer som oppstår under eksperimentreplikering. Mens noen verktøy hjelper med å håndtere avhengigheter eller feilsøke feil, er disse begrenset i omfang og effektivitet. Nylige fremskritt innen store språkmodeller (LLMs) har vist potensial i å automatisere denne prosessen, slik som å generere kode eller kommandoer for å løse problemer. Imidlertid finnes det for øyeblikket ingen robust metode for å evaluere LLMs evne til å håndtere den komplekse og ofte ufullstendige naturen til virkelige forskningsrepositorier.

Forskere fra Allen Institute for AI og University of Washington introduserte SUPER—en benchmark designet for å evaluere LLMs evne til å sette opp og gjennomføre oppgaver fra forskningsrepositorier. I motsetning til andre verktøy som fokuserer på populære og godt vedlikeholdte repositorier, legger SUPER vekt på de virkelige utfordringene forskere møter ved bruk av lavprofil repositorier som ikke alltid er godt dokumentert. Benchmarken inkluderer ulike scenarier som etterligner de typer hindringer forskere regelmessig støter på. Ved å teste LLMs på disse oppgavene gir SUPER en omfattende ramme for å vurdere hvor godt disse modellene kan støtte forskning som involverer kodeutførelse og feilsøking.

SUPER benchmarkens oppsett

SUPER benchmarken er delt inn i tre distinkte sett:

  • Ekspertsettet inkluderer 45 manuelt kuraterte problemer basert på reelle forskningstasker.
  • Maskert sett bryter ned disse problemene til 152 mindre utfordringer som fokuserer på spesifikke tekniske problemer, som å konfigurere en treningsmetode eller løse runtime-feil.
  • Autosettet består av 604 automatisk genererte oppgaver designet for storskala utvikling og finjustering av modeller.

Hvert problems sett introduserer forskjellige utfordringer, fra å installere avhengigheter og konfigurere hyperparametere til feilsøking av feil og rapportering av metrikker. Benchmarken vurderer oppgavens suksess, delvis fremgang og nøyaktigheten til de genererte løsningene, og tilbyr en detaljert evaluering av modellens evner.

Evaluering av LLMs på SUPER benchmarken

Resultatene av LLMs på SUPER benchmarken avslører betydelige begrensninger i dagens modeller. Den mest avanserte modellen som ble testet, GPT-4o, klarte kun å løse 16,3 % av de end-to-end oppgavene i Ekspertsettet og 46,1 % av underproblemene i Maskert settet. Disse resultatene fremhever vanskelighetene med å automatisere oppsett og gjennomføring av forskningseksperimenter, da selv de best ytende modellene sliter med mange oppgaver. Videre ligger open-source modeller betydelig bak, og fullfører en mindre prosentandel av oppgavene. Autosettet viste lignende ytelsesmønstre, noe som tyder på at utfordringene observert i de kuraterte settene er konsistente på tvers av ulike problemer. Evalueringen fremhevet også at agenter presterer bedre på spesifikke oppgaver, som å løse avhengighetskonflikter eller adressere runtime-feil, enn på mer komplekse oppgaver som å konfigurere nye datasett eller endre treningsskript.

Konklusjon

SUPER benchmarken kaster lys over de nåværende begrensningene til LLMs i å automatisere forskningstasks. Til tross for nylige fremskritt er det fortsatt et betydelig gap mellom disse modellenes evner og de komplekse behovene til forskere som arbeider med virkelige repositorier. Resultatene fra SUPER benchmarken indikerer at selv om LLMs kan være nyttige for å løse veldefinerte tekniske problemer, er de ennå ikke i stand til å håndtere hele spekteret av oppgaver som kreves for fullstendig automatisering av forskningseksperimenter. Denne benchmarken gir en verdifull ressurs for AI-samfunnet å måle og forbedre seg på, og tilbyr en vei fremover for utvikling av mer sofistikerte verktøy som en dag fullt ut kan støtte vitenskapelig forskning.

For mer informasjon, sjekk ut forskningsartikkelen, GitHub-repositoriet, og HF-siden. All ære for denne forskningen går til forskerne bak prosjektet. Følg oss gjerne på Twitter og bli med i vår Telegram-kanal og LinkedIn-gruppe. Hvis du liker arbeidet vårt, vil du elske vårt nyhetsbrev.