in

Oppsiktsvekkende gjennombrudd: Ny AI-teknikk halverer treningstiden for nevrale nettverk!

Forskere fra SAIT AI Lab hos Samsung, Concordia University, Université de Montréal og Mila har utviklet en ny metode for å redusere trenings-tiden for komplekse nevrale nettverk. Denne metoden kalles Neuron Interaction and Nowcasting (NINO) og er blitt omtalt som en betydelig forbedring innen optimalisering av dype nevrale nettverk. Denne tilnærmingen anvender en lærefunksjon som forutsier fremtidige oppdateringer av nettverkets parametere, noe som dramatisk kan redusere antallet nødvendige optimizeringssteg. Resultatene av NINO-metoden, spesielt innen syns- og språkteknologiske oppgaver, viser lovende forbedringer.

Utfordringer med å optimalisere store modeller

Trening av komplekse nevrale nettverk, som de som ofte brukes i naturlig språkbehandling (NLP) eller bilderelaterte oppgaver, er svært ressurskrevende og tidkrevende. Tradisjonelt har adaptive optimisatorer som Adam blitt benyttet til å finjustere parametre gjennom gradientnedstigninger, men denne prosessen krever fremdeles et stort antall iterasjoner. Selv om Adam-optimisatoren i seg selv er meget effektiv, er det fremdeles rom for forbedringer når det gjelder hastigheten på treningen, spesielt for store modeller. Dette gjør optimalisering av treningsprosessen avgjørende for raskere utrulling av AI-applikasjoner.

Ulike tilnærminger til optimalisering

For å adressere disse utfordringene har forskere utforsket flere forskjellige metoder. Den mest brukte tilnærmingen er Adam Optimizer, som tilpasser parameterne basert på tidligere gradienter, noe som glatter ut svingningene og forbedrer konvergensen. En annen fremgangsmåte er Learning to Optimize (L2O), hvor et nevralt nettverk blir trent til å optimalisere andre nettverk for å fremskynde treningssyklusen. Mens begge metodene har revolusjonert feltet, har de sine begrensninger. Adam er fremdeles langsommere enn ønskelig, mens L2O kan være ustabilt og krevende å implementere.

Hvordan NINO skiller seg ut

NINO-metoden, utviklet av forskere fra flere internasjonale institusjoner, representerer et paradigmeskifte i måten man tilnærmer seg optimalisering av nevrale nettverk. I stedet for å oppdatere parametre ved hver iterasjon, som i mange tradisjonelle metoder, bruker NINO prediksjon til å anslå fremtidige oppdateringer. Dette skjer ved hjelp av en lærefunksjon som benytter seg av såkalte nevrale grafer for å fange opp interaksjonene mellom nevronene i ulike lag av nettverket. Dette gjør at NINO kan levere svært nøyaktige oppdateringer med færre steg, og dermed redusere den samlede beregningsbelastningen, skriver marktechpost.com.

Nevrale grafer: Hjertet i NINO

En av de mest spesielle aspektene ved NINO er bruken av graf nevrale nettverk (GNN) for å modellere interaksjoner mellom nevronene. Dette er i motsetning til tidligere metoder, som ofte har behandlet parameteroppdateringer isolert. Ved å modellere nevron-interaksjonene kan NINO lage presise prediksjoner angående fremtidige nettverksparametre. Denne tilnærmingen, som bygger videre på Weight Nowcaster Networks (WNN), gjør det mulig for NINO å tilpasse parameterprediksjoner for både nære og fjerne fremtidige punkter uten behov for kontinuerlig opplæring.

Betydelig reduksjon i treningssyklusene

En av de største fordelene med NINO er den drastiske reduksjonen i antallet optimaliseringssteg, uten at det går på bekostning av nøyaktigheten. I flere eksperimenter rettet mot syns- og språkteknologiske oppgaver, som CIFAR-10 og FashionMNIST, oppnådde NINO en reduksjon i optimaliseringstrinn med opptil 50%. Spesielt i en språkoppgave krevde den tradisjonelle Adam-optimisatoren 23 500 steg for å nå ønsket ytelse, mens NINO nådde samme mål på kun 11 500 steg. Dette utgjorde en tidsbesparelse på nesten 50%, noe som også fører til en betydelig reduksjon i de totale ressursene som brukes for å trene nevrale nettverk.

Styrken til NINO på større nevrale nettverk

Til tross for suksessen i mindre oppgaver, er det på større nevrale modeller som transformatorer, at NINO virkelig strålte. Systemet ble testet på transformator-modeller med seks lag og 384 skjulte enheter, som var betydelig større enn modellene som ble brukt under den opprinnelige opptreningen. Likevel klarte systemet å redusere den samlede treningssyklusen med hele 40%. Dette viser at metoden skalerer godt til større og mer komplekse modeller, noe som gjør den til en lovende løsning for videre AI-utvikling.

Oppsummering

NINO representerer et stort teknisk fremskritt innen optimalisering av nevrale nettverk. Ved å bruke nevrale grafer og modellere interaksjoner mellom nevroner, gir NINO en skalerbar løsning som kan forkorte treningsprosesser betraktelig. I en tid hvor hurtigere utrulling av AI-modeller er kritisk for fremgang i bransjen, kan denne nye metoden føre til banebrytende forbedringer innen AI-teknologi.