in

OpenAIs nye AI-modell o1 vil endre alt – her er hvorfor

Nyhet fra Technology Review

Velkommen tilbake til The Algorithm! Denne uken skal vi snakke om OpenAIs imponerende, nye resonnementmodell kalt o1. Jeg vil illustrere hvorfor dette er en så stor nyhet med et eksempel fra mitt eget bryllup (hold ut – jeg lover at det vil bli relevant).

En Personlig Opplevelse

Forrige helg giftet jeg meg på en sommerleir, og i løpet av dagen konkurrerte gjestene våre i en serie av spill inspirert av programmet Survivor, som min nå-kone og jeg arrangerte. Da vi planla spillene i august, ønsket vi at en stasjon skulle være en hukommelsesutfordring, hvor venner og familie måtte memorere en del av et dikt og deretter formidle det til lagkameratene slik at de kunne gjenskape det med et sett av trebrikker.

Jeg tenkte at OpenAIs GPT-4o, deres ledende modell på den tiden, ville være perfekt til å hjelpe. Jeg ba modellen om å lage et kort dikt med bryllupstema, med den begrensningen at hver bokstav bare kunne vises et bestemt antall ganger slik at vi kunne sikre at lagene kunne gjenskape det med de tilgjengelige flisene. GPT-4o feilet miserabelt. Modellen insisterte gjentatte ganger på at diktet oppfylte kravene, selv om det ikke gjorde det. Til slutt måtte vi forlate diktideen og i stedet utfordre gjestene til å memorere en serie former laget av fargede fliser.

Men forrige uke lanserte OpenAI en ny modell kalt o1 (tidligere kjent under kodenavnet “Strawberry” og før det, Q*) som utkonkurrerer GPT-4o for slike formål.

Ny Modell med Fokus på Resonnement

I motsetning til tidligere modeller som er godt egnet for språkopgaver som skriving og redigering, er OpenAI o1 fokusert på flerstegs “resonnement” – den type prosess som kreves for avansert matematikk, koding eller andre STEM-baserte spørsmål. Ifølge OpenAI bruker den en “chain of thought”-teknikk. “Den lærer å gjenkjenne og rette sine feil. Den lærer å bryte ned vanskelige trinn i enklere deler. Den lærer å prøve en annen tilnærming når den nåværende ikke fungerer,” skrev selskapet i et blogginnlegg på deres nettside.

Testresultater og Ytelse

OpenAIs tester peker på overveldende suksess. Modellen rangerer i den 89. percentilen på spørsmål fra den konkurranserelaterte kodeorganisasjonen Codeforces og vil være blant de topp 500 videregående elever i USA Math Olympiad, som dekker geometri, tallteori og andre matematikktemaer. Modellen er også trent til å svare på doktorgradsnivåspørsmål i emner som spenner fra astrofysikk til organisk kjemi.

I matematikkolympiadespørsmål er den nye modellen 83.3% nøyaktig, sammenlignet med 13.4% for GPT-4o. I doktorgradsnivåspørsmål har den en gjennomsnittlig nøyaktighet på 78%, i motsetning til 69.7% fra menneskelige eksperter og 56.1% fra GPT-4o.

Betydningen av OpenAI o1

Hvorfor betyr dette noe? Frem til nå har fremgangen for store språkmodeller (LLM) i hovedsak vært språkbasert, noe som har resultert i chatboter eller taleassistenter som kan tolke, analysere og generere ord. Men i tillegg til å få mange fakta feil, har slike LLM-er ikke klart å vise de typer ferdigheter som kreves for å løse viktige problemer innen områder som legemiddeloppdagelse, materialvitenskap, koding eller fysikk. OpenAIs o1 er et av de første tegnene på at LLM-er snart kan bli genuint nyttige følgesvenner for menneskelige forskere innen disse feltene.

Det er en stor sak fordi det bringer “chain-of-thought” resonnement i en AI-modell til et bredt publikum, sier Matt Welsh, en AI-forsker og grunnlegger av LLM-startupen Fixie. “Resonnementsevner er direkte i modellen, i stedet for å måtte bruke separate verktøy for å oppnå lignende resultater. Min forventning er at det vil heve standarden for hva folk forventer at AI-modeller skal kunne gjøre,” sier Welsh.

Likevel er det best å ta OpenAIs sammenligninger med “menneskelig-nivå ferdigheter” med en klype salt, sier Yves-Alexandre de Montjoye, førsteamanuensis i matematikk og datavitenskap ved Imperial College London. Det er svært vanskelig å meningsfullt sammenligne hvordan LLM-er og mennesker løser oppgaver som å løse matematiske problemer fra bunnen av.

AI-forskere sier også at det å måle hvor godt en modell som o1 kan “resonnere” er vanskeligere enn det høres ut. Hvis den svarer riktig på et gitt spørsmål, er det fordi den klarte å resonnere seg fram til det logiske svaret? Eller ble den hjulpet av en tilstrekkelig mengde innebygd kunnskap i modellen? Modellen “faller fortsatt kort når det gjelder åpent resonnement”, skrev Google AI-forsker François Chollet på X.

Kostnaden for avansert resonnement

Til slutt er det prisen. Denne resonnementstunge modellen er ikke billig. Selv om tilgangen til noen versjoner av modellen er inkludert i premium-abonnementer fra OpenAI, må utviklere som bruker o1 gjennom API betale tre ganger så mye som de betaler for GPT-4o – $15 per 1 million inputtokens i o1, sammenlignet med $5 for GPT-4o. Den nye modellen vil heller ikke være førstevalget for de fleste brukere for mer språk-tunge oppgaver, hvor GPT-4o fortsetter å være det bedre valget, ifølge brukerundersøkelser fra OpenAI.

Hva vil den låse opp? Det vet vi ikke før forskere og laboratorier har tilgang, tid og budsjett til å eksperimentere med den nye modellen og finne dens grenser. Men det er helt sikkert et tegn på at kappløpet om modeller som kan utresonnere mennesker er startet.

Nå kan du lese resten av The Algorithm

Dypere Læring

Chatboter Kan Overtale Folk til å Slutte å Tro på Konspirasjonsteorier

Forskere tror de har avdekket et nytt verktøy for å bekjempe falske konspirasjonsteorier: AI-chatboter. Forskere fra MIT Sloan og Cornell University fant at det å chatte om en konspirasjonsteori med en stor språkmodell (LLM) reduserte folks tro på det med omtrent 20% – selv blant deltakere som hevdet at deres tro var viktig for deres identitet.

Hvorfor dette er viktig: Funnet kan representere et viktig skritt fremover i hvordan vi engasjerer oss med og utdanner mennesker som støtter slike grunnløse teorier, sier Yunhao (Jerry) Zhang, postdoktorstipendiat tilknyttet Psychology of Technology Institute, som studerer AIs påvirkning på samfunnet. “De viser at med hjelp av store språkmodeller kan vi – jeg vil ikke si løse det, men vi kan i det minste redusere dette problemet,” sier han. “Det peker på en måte å gjøre samfunnet bedre.”

Bits og Bytes

  • Googles nye verktøy lar store språkmodeller faktasjekke sine svar
  • DataGemma bruker to metoder for å hjelpe språkmodeller med å sjekke sine svar mot pålitelige data og sitere sine kilder mer gjennomsiktig for brukerne. (MIT Technology Review)
  • Møt den radio-besatte sivile som former Ukrainas dronforsvar
  • Siden Russlands invasjon har Serhii “Flash” Beskrestnov blitt en innflytelsesrik, om enn tidvis kontroversiell, kraft – han deler ekspert råd og etterretning om den stadig evolverende teknologien som har tatt over himmelen. Hans arbeid kan bestemme fremtiden for Ukraina og langt utenfor det. (MIT Technology Review)
  • Teknologiselskaper har inngått en White House-avtale for å forhindre AI-generert seksuelt overgrepsmateriale
  • Forpliktelsene, underskrevet av selskaper som OpenAI, Anthropic og Microsoft, tar sikte på å “dempe opprettelsen av bildebasert seksuelt overgrep.” Selskapene lover å sette grenser for hva modeller vil generere og å fjerne nakenbilder fra treningsdatasett der det er mulig. (Fortune)
  • OpenAI er nå verdsatt til $150 milliarder
  • Verdsettelsen oppsto fra samtaler de er midt i for å samle inn $6.5 milliarder. Gitt at OpenAI blir stadig dyrere å drive, og kan tape så mye som $5 milliarder i år, er det vanskelig å se hvordan det hele går opp. (The Information)

Les mer fra The Algorithm her.