in

Ny studie avslører banebrytende teknikker for å gjøre store språkmodeller superraske

Store språkmodeller (LLMs) har oppnådd bemerkelsesverdige resultater innen naturlig språkbehandling (NLP). Dype læringsmodeller i stor skala, spesielt de basert på transformer-arkitekturer, har vokst eksponentielt i størrelse og kompleksitet, og når nå milliarder til billioner av parametere. Likevel medfører denne veksten store utfordringer når det gjelder datakraft og minnebruk. Selv med avanserte grafikkprosessorer (GPUer) kan det være vanskelig å håndtere LLMs med billioner av parametere, noe som begrenser tilgjengeligheten for mange forskere, ettersom trening og administrasjon av slike modeller krever betydelige justeringer og kraftige datamaskinkapasiteter. Derfor har det blitt viktig å utvikle rammeverk, biblioteker og teknikker for å overkomme disse utfordringene.

Anbefalte optimaliseringsteknikker

Nyere studier har undersøkt språkmodeller, optimaliseringsteknikker og akselerasjonsmetoder for dyp læring i stor skala, inkludert LLMs. Disse studiene fremhever sammenligning av modeller, optimaliseringsutfordringer, forhåndstrening, tilpasning, bruksmønstre og evaluering av kapasitet. Mange metoder har blitt utviklet for å oppnå sammenlignbar nøyaktighet til en lavere treningskostnad, som optimaliserte algoritmer, distribuerte arkitekturer og maskinvareaksellerasjon. Disse gjennomgangene gir verdifulle innsikter for forskere som ønsker optimale språkmodeller og skisserer veien videre for utviklingen av mer bærekraftige og effektive LLMs.

Forskningsinnsats fra Øst-Europa

Forskere fra Obuda University i Budapest, Ungarn; J. Selye University i Komarno, Slovakia; og Institute for Computer Science and Control (SZTAKI) i Budapest, Ungarn, presenterte en systematisk litteraturgjennomgang (SLR) som analyserer 65 publikasjoner fra 2017 til desember 2023. Gjennomgangen fokuserer på optimalisering og akselerasjon av LLMs uten å ofre nøyaktigheten. Studien følger PRISMA-metoden for å gi en oversikt over utviklingen innen språkmodellering og utforsker mye brukte rammeverk og biblioteker. Forskningen introduserer en taksonomi som forbedrer LLM-er innen tre kategorier: trening, inferens, og systembetjening.

Nye treningsrammeverk

Ett av hovedfunnene er at LLMs som treningsrammeverk og biblioteker har store utfordringer på grunn av modellenes kompleksitet og størrelse. Distribuerte treningsrammeverk som Megatron-LM og CoLLiE løser dette ved å dele modellene over flere GPUer for parallell behandling. Effektiviteten og hastigheten forbedres med systemoptimaliseringer, som LightSeq2, som øker GPU-utnyttelsen og reduserer minnebruken. CoLLiE håndterer også minnehåndtering med 3D-parallellisering, som fordeler minnet mer effektivt mellom maskiner og GPUer.

Fem nøkkelverktøy for bedre resultater

Studien trekker frem fem verktøy som adresserer LLMs treningsbegrensninger:

  • GPipe: Trener store flerspråklige transformer-modeller og overgår mindre modeller.
  • ByteTransformer: Leverer overlegen ytelse for BERT-lignende transformatorer.
  • Megatron-LM: Muliggjør trening av modeller med milliarder av parametere med høy gjennomstrømning.
  • LightSeq2: Akselererer treningen av transformer-modeller betydelig og øker ytelsen med opptil 308 %.
  • CoLLiE: Introducerer samarbeidstrening for LLMs som LLaMA-65B, og forbedrer effektiviteten uten å kompromittere ytelsen.

Bedre ressurseffektivitet for inferens

Utfordringer ved inferens, som kostnader og ressursmangel, krever en delikat balanse mellom hastighet, nøyaktighet og ressursutnyttelse. I dette aspektet er maskinvareoptimalisering, ressursadministrasjon og algoritmiske forbedringer viktige. Nyere rammeverk som Splitwise deler ressurskrevende faser på tilpasset maskinvare, mens FlexGen optimaliserer ressursbruk mellom CPU, GPU og disk. Andre biblioteker som EET og LightSeq forbedrer GPU-inferens gjennom spesialiserte algoritmer og minneadministrasjon. Disse fremskrittene reduserer ventetider og øker beregningshastigheter.

Optimalisering under trening: utfordringer og løsninger

LLM-tredning møter en rekke utfordringer, blant annet:

  • Ressursbegrensninger: Modeller med millioner eller milliarder av parametere krever høy minne- og beregningskapasitet, noe som gjør det vanskelig å kjøre disse på enkle enheter.
  • Effektivitet kontra nøyaktighet: Det er en innbyrdes avveining mellom effektivitetsoptimalisering og modellens nøyaktighet.
  • Minneflaskehalser: Å distribuere språkmodeller over flere enheter kan føre til flaskehalser.
  • Kommunikasjonsforsinkelser: Datautveksling mellom ulike enheter kan senke treningshastigheten.
  • Hardware-heterogenitet: Det er utfordrende å utnytte forskjellige typer maskinvare effektivt.
  • Skalerbarhet: Begrenset av både minnekraft og kommunikasjonens omfang.

Flere teknikker er blitt utviklet for å møte disse utfordringene, inkludert algoritmiske forbedringer som FlexGen, som bruker spesialtilpassede maskinvarekjernemoduler for bedre effektivitet. Teknikker som GPipe muliggjør modelltrening over flere maskinenheter. Tilpasningsteknikker som AlphaTuning reduserer minnebruken ved tilpasning av store modeller.

Potensialet for fremtidens forskning

Selv om denne systematiske litteraturstudien gir en omfattende gjennomgang av optimaliseringsteknikker for LLMs, bemerker forskerne at studien kan ha utelatt relevante funn som bruker annen terminologi. I tillegg kan begrenset dekning av databaser ha oversett viktig forskning, spesielt fra tidligere samt de helt siste fremskrittene i feltet. Det er derfor behov for videre forskning for å fullt ut realisere potensialet som ligger i optimaliseringen av store språkmodeller, konkluderer forskerne.

Les mer om denne systematiske litteraturgjennomgangen på marktechpost.com.