in

Den banebrytende nyheten som kan revolusjonere AI: Slik skal vi trene supersmarte språkmodeller mye mer effektivt

Store språkmodeller (LLM-er) har fått betydelig oppmerksomhet innen kunstig intelligens, spesielt på grunn av deres evne til å etterligne menneskelig kunnskap gjennom omfattende datasett. Dagens metoder for å trene disse modellene er sterkt avhengig av imitasjonslæring. Imitasjonslæringen involverer spesielt forutsigelse av neste token ved bruk av maksimal sannsynlighetsestimering (MLE) under forhåndstrening og overvåket finjustering. Imidlertid står denne tilnærmelsen overfor flere utfordringer, inkludert sammensatte feil i autoregressive modeller, eksponeringsskjevhet og distribusjonsskift under iterative modellapplikasjoner. Disse problemene blir mer uttalte med lengre sekvenser og kan potensielt føre til redusert ytelse og dårligere samsvar med menneskelige intensjoner. Etter hvert som feltet utvikler seg, er det et økende behov for å løse disse utfordringene og utvikle mer effektive metoder for å trene og tilpasse LLM-er til menneskelige preferanser og intensjoner.

Eksisterende forsøk på å adressere utfordringene i språkmodelltrening har primært fokusert på to hovedtilnærminger: atferdskopiering (BC) og inverse forsterkningslæring (IRL). BC ligner på overvåket finjustering via MLE og etterligner direkte ekspertdemonstrasjoner, men lider av sammensatte feil og krever omfattende datadekning. IRL, på den andre siden, infører både politikk og belønningsfunksjon samtidig, og kan potensielt overvinne BC’s begrensninger ved å bruke tilleggsmiljøinteraksjoner. Nylige IRL-metoder har inkorporert spillteoretiske tilnærminger, entropiregulering og ulike optimaliseringsteknikker for å forbedre stabilitet og skalerbarhet. Innenfor språkmodellering har noen forskere utforsket motstridende treningsmetoder, som SeqGAN, som alternativer til MLE. Imidlertid har disse tilnærmingene vist begrenset suksess, og fungerer effektivt bare i spesifikke temperaturregimer. Til tross for disse innsatsene, fortsetter feltet å søke mer robuste og skalerbare løsninger for trening og tilpasning av store språkmodeller.

Forskere hos DeepMind foreslår en grundig undersøkelse av RL-basert optimalisering, spesielt med fokus på distribusjonsmessig tilpasning av IRL, for finjustering av store språkmodeller. Denne tilnærmingen tar sikte på å tilby et effektivt alternativ til standard MLE. Studiet omfatter både motstridende og ikke-motstridende metoder, så vel som offline og online teknikker. En viktig innovasjon er utvidelsen av inverse soft Q-learning for å etablere en prinsipiell forbindelse med klassisk atferdskopiering eller MLE. Forskningen evaluerer modeller som spenner fra 250 millioner til 3 milliarder parametre, inkludert encoder-decoder T5 og kun decoder PaLM2-arkitekturer. Ved å undersøke oppgaveytelse og generasjonsmangfold, søker studien å demonstrere fordelene med IRL over atferdskopiering i imitasjonslæring for språkmodeller. I tillegg utforsker forskningen potensialet til IRL-oppnådde belønningsfunksjoner for å bygge bro med senere stadier av RLHF.

Den foreslåtte metodikken introduserer en unik tilnærming til finjustering av språkmodeller ved å reformulere inverse soft Q-learning som en tidsmessig forskjell-regulert utvidelse av MLE. Denne metoden bygger bro mellom MLE og algoritmer som utnytter den sekvensielle naturen til språkgenerering.

Tilnærmingen modellerer språkgenerering som et sekvensielt beslutningstaking problem, der genereringen av neste token er betinget av den tidligere genererte sekvensen. Forskerne fokuserer på å minimere divergensen mellom den γ-rabatterte tilstands-handlingsfordelingen av politikken og den til ekspertpolitikken, kombinert med et vektet kausal entropielement.

Formuleringen bruker χ²-divergensen og reskalerer verdifunksjonen, noe som resulterer i IQLearn-målsetningen:

IQLearn objective

Denne målsetningen består av to hovedkomponenter:

  1. En reguleringsterm som kobler den lærte politikken til en verdifunksjon, og favoriserer politikker der log-sannsynligheten for handlinger samsvarer med forskjellen i tilstandsverdier.
  2. En MLE-term som opprettholder forbindelsen til tradisjonell språkmodelltrening.

Viktigst er at denne formuleringen tillater annealing av reguleringstermen, noe som gir fleksibilitet i å balansere mellom standard MLE (λ = 0) og sterkere regulering. Denne tilnærmingen gjør det mulig med offline trening ved bruk av kun eksperteksempler, noe som potensielt kan forbedre beregningseffektiviteten i storskala finjustering av språkmodeller.

Forskerne gjennomførte omfattende eksperimenter for å evaluere effektiviteten av IRL-metoder sammenlignet med MLE for finjustering av store språkmodeller. Resultatene deres viser flere nøkkelfunn:

  1. Ytelsesforbedringer: IRL-metoder, spesielt IQLearn, viste små men merkbare gevinster i oppgaveprestasjon på tvers av ulike målepunkter, inkludert XSUM, GSM8k, TLDR og WMT22. Disse forbedringene var spesielt uttalt for matematikk- og resonnementoppgaver.
  2. Mangfoldsforbedring: IQLearn produserte konsekvent mer mangfoldige modellgenerasjoner sammenlignet med MLE, målt ved lavere Self-BLEU-score. Dette indikerer en bedre avveining mellom oppgaveprestasjon og utgangsmangfold.
  3. Modellskalerbarhet: Fordelene med IRL-metoder ble observert på tvers av ulike modellstørrelser og arkitekturer, inkludert T5 (base, large og xl) og PaLM2-modeller.
  4. Temperaturfølsomhet: For PaLM2-modeller oppnådde IQLearn høyere ytelse i lav-temperatur-samplingsregimer på tvers av alle testede oppgaver, noe som antyder forbedret stabilitet i generasjonskvalitet.
  5. Redusert avhengighet av bjelkesøk: IQLearn demonstrerte evnen til å redusere avhengigheten av bjelkesøk under inferens mens den opprettholdt ytelsen, noe som potensielt tilbyr gevinst i beregningseffektivitet.
  6. GAIL-ytelse: Mens det stabiliserte seg for T5-modeller, viste GAIL seg vanskelig å implementere effektivt for PaLM2-modeller, noe som fremhever robustheten til IQLearn-tilnærmingen.

Disse resultatene antyder at IRL-metoder, spesielt IQLearn, gir et skalerbart og effektivt alternativ til MLE for finjustering av store språkmodeller, og tilbyr forbedringer i både oppgaveprestasjon og generasjonsmangfold på tvers av en rekke oppgaver og modellarkitekturer.

Dette papiret undersøker potensialet til IRL-algoritmer for finjustering av språkmodeller, med fokus på ytelse, mangfold og beregningseffektivitet. Forskerne introduserer en reformulert IQLearn-algoritme som muliggjør en balansert tilnærming mellom standard overvåket finjustering og avanserte IRL-metoder. Eksperimentene avdekker betydelige forbedringer i avveiningen mellom oppgaveprestasjon og generasjonsmangfold ved bruk av IRL. Studien viser hovedsakelig at beregningsmessig effektiv offline-IRL oppnår betydelige ytelsesgevinster over MLE-basert optimalisering uten å kreve online-sampling. I tillegg antyder korrelasjonsanalysen mellom IRL-utvunnede belønninger og ytelsesmålinger potensialet for å utvikle mer nøyaktige og robuste belønningsfunksjoner innen språkmodellering, og baner vei for forbedret språkmodelltrening og tilpasning.

For mer informasjon, se marktechpost.com. All ære for denne forskningen går til forskerne av dette prosjektet. Følg oss på Twitter og bli med i vår Telegram-kanal og LinkedIn-gruppe. Hvis du liker arbeidet vårt, vil du elske nyhetsbrevet vårt også.

Ikke glem å bli med i vår 50k+ ML SubReddit og delta på gratis AI-webinar: ‘SAM 2 for Video: How to Fine-tune On Your Data’ (onsdag, 25. sep, 04:00 – 04:45 EST).