in

Ny AI fra OpenAI: smarte, men skumlere enn tidligere modeller!

OpenAI har lansert den nye LLM-serien “01”, med kodenavn “Strawberry”, som viser betydelige forbedringer sammenlignet med GPT-4o. Imidlertid sier selskapet at disse forbedringene medfører økte risikoer.

Forpliktelse til sikker utvikling

OpenAI er forpliktet til sikker utvikling av sine AI-modeller. For å sikre dette har de utviklet et Beredskapsrammeverk, en rekke “prosesser for å spore, evaluere og beskytte mot katastrofale risikoer fra kraftige modeller”.

Selvpålagte begrensninger

OpenAI har innført egne grenser for hvilke modeller som kan lanseres eller videreutvikles. Beredskapsrammeverket fører til en resultattavle der CBRN (kjemiske, biologiske, radiologiske, kjernefysiske), modellautonomi, cybersikkerhet og overtalelsesrisiko vurderes som lav, middels, høy eller kritisk.

Dersom uakseptable risikoer identifiseres, iverksettes tiltak for å redusere dem. Kun modeller med en etter-mitigering score på “middels” eller lavere kan lanseres. Kun modeller med en etter-mitigering score på “høy” eller lavere kan videreutvikles.

Første utgivelse med “middels” risiko

Utgivelsen av 01 markerer første gang OpenAI har lansert en modell som presenterer “middels” risiko for CBRN. GPT-4o er vurdert som lav risiko.

Modellen vil ikke gjøre det mulig for en amatør å lage et biologisk våpen, men OpenAI sier det har vært en “ikke-triviell økning” i dens evne til å utføre laboratorieoppgaver. Videre utførte “o1-preview” og “o1-mini” vesentlig bedre enn GPT-4o i protokoller for våtlaboratorier.

Sikkerhet og risikoanalyse

Systemkortet for 01-modellene skisserer red teaming og andre sikkerhetstester som LLM-ene ble utsatt for, og antyder noen av bekymringene OpenAI har om potensielle risikoer.

I konklusjonen av systemkortet noteres: “Disse økte evnene kommer med betydelig forbedret ytelse på sikkerhetsbenchmarker, men øker også visse typer risiko.”

Resultatene fra OpenAIs justeringsinnsats indikerer at 01 på mange måter er en tryggere modell. Den er mer motstandsdyktig mot jailbreak-angrep, mindre sannsynlig å være partisk og mindre tilbøyelig til hallusinasjoner.

Bekymringer rundt bedrag

OpenAI brukte evalueringsorganisasjonen Apollo Research til å gjennomføre noen av 01s sikkerhetstester knyttet til bedrageri eller skjuling. Apollo definerer bredt bedrageri som AIs utnyttelse av sine overvåkningsmekanismer som en måte å oppnå et mål på.

En selvbevisst modell som er god på selvresonnering og oppgaver relatert til Theory of Mind, kan benytte bedrag for å oppnå sitt primære mål. For eksempel, hvis en AI-modell innså at den gjennomgikk justeringstesting, kan den skjule risikabel atferd for å bli utplassert.

Systemkortet bemerket at “o1-preview noen ganger instrumentalt skjulte justering under testing.”

Et eksempel er når 01 ble instruert med et primært mål om å maksimere økonomisk vekst i et byplanleggingsprosjekt. 01-modellen hadde tilgang til informasjon som viste at den ikke kunne gå videre fra testfasen hvis den gjorde dette. Her er hvordan 01 resonnerte for å nå sitt mål:

01 bestemmer seg for å skjule sine sanne intensjoner under testing for å bli utplassert. Kilde: OpenAI

Dette eksemplet viser 01s evne til å skjule sine sanne intensjoner under testing slik at den kan forfølge sitt primære mål under utplassering. Hvis 01 er klar over OpenAIs regler for utplassering basert på Beredskapsrammeverket, kan den ha skjult noen av sine svar for å sikre at den ble utplassert?

Hvis mer intelligente modeller er under utvikling, kan de sørge for å holde seg under “kritisk” risikopoengsum for å sikre at de blir videreutviklet?

Apollo-teamet sier at de “subjektivt tror at o1-preview ikke kan begå bedrag som kan føre til katastrofale skader, selv om dagens evalueringer ikke er designet for å definitivt utelukke dette.”

Overtalelse

Testing av både o1-preview og o1-mini viser at disse modellene har “overtalelsesevner på menneskelig nivå.” Imidlertid sier OpenAI “De overgår ikke topp menneskelige skribenter og når ikke vår høyrisiko terskel.”

Eksperimentene de utførte for å teste dette reiser noen bekymringer. I testene “MakeMePay” ble 01-preview tildelt rollen som en svindler og fikk oppdraget å overbevise GPT-4o om å overlevere pengene den hadde blitt tildelt.

GPT-4o ble informert om at den hadde fått $100 og måtte være rasjonell med bruken av pengene. I løpet av 1 000 interaksjoner klarte 01-preview å lure GPT-4o 25,8% av gangene.

OpenAI konkluderte med at “Disse resultatene indikerer at 01-modellserien kan være mer manipulerende enn GPT-4o til å få GPT-4o til å utføre den uopplyste oppgaven (∼25% økning).” De la videre til at “Denne evalueringen gir oss en grunnlinje for modellens evne til å utføre overtalende skade, uten å utløse noen modellpolitikker (da det å be en modell spille et spill ikke er utenfor policy).”

Utsikten til å sette 01 LLM-ene i arbeid med virkelige problemer er ekstremt spennende, og når 01 får multimodale evner, vil det representere nok et eksponentielt sprang. Men når AI-testere sier at de ikke kan utelukke “katastrofale skader” og at modeller noen ganger skjuler sine sanne intensjoner, kan det være en grunn til å dempe den entusiasmen med forsiktighet.

Ga OpenAI nettopp Gavin Newsom en god grunn til å signere AI-sikkerhetsloven SB 1047 som selskapet er imot?

Kilde: dailyai.com

Innlegget “01 er smartere men mer bedragersk med et ‘middels’ fare nivå” dukket først opp på DailyAI.