Utviklingen av store språkteknologiske modeller (LLMs) har gjort store fremskritt innen ulike språkoppgaver, men å styre genereringen av utdata slik at de oppfyller bestemte egenskaper, er fortsatt en betydelig utfordring. Forskere forsøker nå å finne løsninger på hvordan man kan kontrollere språkmodellene slik at de gir resultater som tilfredsstiller ønskede kriterier på tvers av flere applikasjoner. Dette inkluderer blant annet forsterkningslæring basert på menneskelig tilbakemelding (RLHF), bruk av rødlaging-teknikker, gjennomføringen av resonneringsoppgaver, samt håndhevelse av spesifikke egenskaper i responsene.
Selv om eksisterende metoder forsøker å veilede modellens output på en tilfredsstillende måte, møter de fremdeles utfordringer med å balansere mellom modellens tilegnede kunnskap og behovet for å generere svar som passer med ønskede egenskaper eller begrensninger. Denne balansegangen gjør det nødvendig med innovative tilnærminger for å kunne styre språkmodeller bedre.
tidligere forsøk på å løse språkmodellstyring
Mange ulike teknikker har blitt prøvd for å løse utfordringene med å kontrollere språkmodellers respons. Blant disse metodene finner vi varierte dekoderingsmetoder og kontrollert genereringsteknikker. Et eksempel på førstnevnte er best-of-K sampling, som har som mål å produsere ulike utdata. På den andre siden, teknikker som PPLM og GeDi fokuserer på å styre modellens output mot bestemte attributter.
I tillegg har forsterkningslæringsmetoder, spesielt de som bruker Proximal Policy Optimization (PPO), blitt benyttet for å trene modeller slik at de balanserer mellom policy- og verdivurderinger. Noen forskere har også eksperimentert med Monte Carlo Tree Search (MCTS)-teknikker, som enten er basert på verdivurderinger fra PPO eller styres av diskriminatorer for å forbedre dekoderingsprosessen. Til tross for dette mangler mange av disse metodene en samlet probabilistisk ramme, noe som gir rom for mer integrerte løsninger.
Twistet Monte Carlo gir nytt håp
Forskere ved University of Toronto og Vector Institute benytter en kraftig ramme kalt Twisted Sequential Monte Carlo (SMC), som er utviklet for probabilistisk inferens i språkmodeller. Denne tilnærmingen tar tak i utfordringen med prøvetaking fra ikke-kausale måldistribusjoner ved å lære twist-funksjoner som modulerer basis-modellen slik at den matcher målmarginalene.
Metoden fokuserer på språkgenerering som sikter mot lovende del-sekvenser, og forbedrer dermed kvaliteten og relevansen av utdataene. I tillegg til å muliggjøre mer effektiv sampling gir Twisted SMC også verktøy for å evaluere inferensteknikker gjennom estimering av log-partisjonsfunksjoner. Denne probabilistiske tilnærmingen representerer et avgjørende fremskritt i styring av språkmodeller, og bygger bro mellom sampling, evaluering og finjustering av modellene.
bedre resultat når målene er komplekse
Twisted SMC differensierer seg fra klassiske metoder ved å fokusere på å definere mellomliggende mål som stemmer overens med de faktiske målene til sluttfordelingen. I stedet for å stole på per-token statistikk, vurderer Twisted SMC hele målinformasjonen opp til terminaltids-punktet (T). Dette er spesielt nyttig i tilfeller der målfordelingen er bestemt av sluttpotensialet alene.
Nøkkelen her ligger i introduksjonen av twist-funksjoner (ψt) som modulerer basis-språkmodellen slik at den med hver mellomliggende sekvens blir mer som målmangelene. Disse funksjonene oppsummerer fremtidig informasjon som er relevant for sampling på tid t, og muliggjør derfor en mer nøyaktig sampling fra komplekse måldistribusjoner, som igjen forbedrer språkmodellens evne til å generere resultater i tråd med spesifikke sluttmål.
evaluering av Twisted SMC
I en rekke tester utført på forskjellige oppgaver, inkludert generering av tekster med giftig eller positivt innhold og oppgaver som sentiment-kontroll og tekstutfylling, viste Twisted SMC betydelig effekt. Forskerne fant blant annet at:
- Twisted SMC kraftig forbedret samplingseffektiviteten sammenlignet med enklere teknikker som vanlig importance sampling.
- Innenfor oppgaver som omfattet giftighet, presterte Contrastive Twist Learning (CTL) best i å redusere den omvendte KL-divergensen.
- På oppgaver som fokuserte på sentiment-kontroll, overgikk CTL resten ved å oppnå de laveste KL-divergensene både fremover og bakover.
- For tekstutfyllingsoppgaver viste Distributional Policy Gradient (DPG) de beste resultatene, sannsynligvis fordi den utnyttet eksakte positive prøver.
Disse funnene understreker viktigheten av å velge riktig inferensmetode ut fra oppgavens behov. Der CTL presterte godt med omtrentlig prøvetaking, utmerket DPG seg når eksakte målprøver var tilgjengelige.
en mer avansert tilnærming
Gjennom Twisted SMC presenteres en kraftig, probabilistisk inferensramme som henvender seg til både utfordringer knyttet til ytelse og sikkerhet i språkmodeller. Ved å kombinere robuste designvalg med kontrastive metoder for twist-læring, bidrar denne rammen til både økt effektivitet i samplingsprosesser samt en mer presis evaluering.
Studien representerer et betydelig fremskritt og tilbyr økt fleksibilitet i oppgaver der det er særlig viktig å kontrollere språkmodellens generering. Mer om denne forskningen kan du lese på marktechpost.com.