in

Stanford-forskere med AI for å forbedre språkmodeller for nisje

Kunstig intelligens (AI) har gjort store fremskritt de siste årene, spesielt med utviklingen av storskala språkmodeller. Disse modellene, som er trent på massive datasett som internetttekst, har vist imponerende evner innen kunnskapsbaserte oppgaver som å svare på spørsmål, oppsummere innhold og forstå instruksjoner. Til tross for deres suksess, møter disse modellene utfordringer når det gjelder spesialiserte domener der data er knappe eller svært spesifikke. Å trene disse modellene til å prestere godt i nisjeområder forblir en betydelig utfordring, med bare en liten mengde tilgjengelig tekst.

Et sentralt problem innen AI-forskning er den ineffektive måten modeller tilegner seg kunnskap fra små datasett. Nåværende modeller trenger eksponering for tusenvis av variasjoner av samme faktum for å lære det effektivt. Dette utgjør et problem når et faktum bare dukker opp én eller to ganger i et spesialisert korpus, noe som gjør det vanskelig for modellene å forstå og generalisere fra slik begrenset informasjon. Denne ineffektiviteten er enda mer uttalt når man tilpasser en generell språkmodell til et nytt, domene-spesifikt område der mangfoldige representasjoner av viktige konsepter er fraværende.

Nåværende AI-metoder prøver å løse dette problemet gjennom forhåndstrening på massive datasett, noe som gir modellene en bred forståelse av generelle temaer. Denne tilnærmingen er imidlertid ineffektiv for domener med bare et lite korpus av informasjon. Noen forskere har forsøkt å løse dette ved å parafrasere den originale teksten flere ganger for å skape ulike representasjoner. Denne metoden, selv om den er enkel, mangler evnen til å introdusere nye perspektiver eller utdype forståelsen. Etter noen runder med omskriving har modellens prestasjoner en tendens til å flate ut, ettersom omskriving alene ikke gir nok variasjon for betydelige læringsforbedringer.

Forskere fra Stanford University introduserte EntiGraph, en innovativ tilnærming til å løse dette problemet gjennom generering av syntetiske data. Teamet, bestående av medlemmer fra Institutt for statistikk og Institutt for informatikk, utviklet EntiGraph for å generere et stort, syntetisk korpus fra et lite, domene-spesifikt datasett. Målet er å hjelpe modellene med å lære mer effektivt ved å tilby et større mangfold av eksempler. EntiGraph identifiserer nøkkelenheter innenfor den opprinnelige teksten og bruker deretter en språkmodell for å generere ny, variert innhold rundt relasjonene mellom disse enhetene. Denne metoden gjør det mulig å skape et mangfoldig treningssett, selv fra en liten mengde data.

EntiGraph begynner med å ekstrahere viktige enheter fra et gitt datasett. Enheter kan være personer, steder eller konsepter som er sentrale for teksten. Etter å ha identifisert disse enhetene bruker algoritmen en språkmodell til å beskrive deres relasjoner. Disse beskrivelsene kombineres deretter til et syntetisk datasett som utvider det opprinnelige korpuset, og gir språkmodellen et mye større og rikere treningsdatasett. Denne prosessen tillater språkmodellen å lære forbindelser mellom enheter på måter som ikke var til stede i den opprinnelige teksten, noe som fører til bedre kunnskapstilgang. Videre organiserer EntiGraph disse relasjonene i en kunnskapsgraf, som muliggjør videre utforskning av hvordan forskjellige enheter interagerer innenfor datasettet.

Prestasjonen til EntiGraph ble testet i en serie eksperimenter, og resultatene var lovende. Forskerne tok et korpus på 1,3 millioner token og brukte EntiGraph for å generere et syntetisk datasett som inneholdt 600 millioner token. De forhåndstrente deretter en språkmodell, Llama 3 8B, på dette større datasettet. Resultatene viste en log-lineær forbedring i nøyaktighet etter hvert som antall syntetiske token økte. For eksempel økte modellens nøyaktighet i spørsmål-svar-oppgaver fra 39,49 % ved bruk av det opprinnelige datasettet til 56,42 % etter forhåndstrening på det syntetiske korpuset. Dessuten ga den syntetiske forhåndstreningen ved bruk av EntiGraph opptil 80 % av nøyaktighetsforbedringen som modellene oppnår når de har tilgang til de opprinnelige dokumentene under inferens. Dette viser at selv uten tilgang til de opprinnelige dataene kan modellene prestere godt etter trening på et syntetisk korpus.

Studien viste også at EntiGraph overgår eksisterende metoder, som simpelthen å omskrive datasettet. I en sammenligning inneholdt det omskrevne korpuset kun 1,8 millioner token, og modellens nøyaktighet flatet ut på 43,08 %. I kontrast forbedret EntiGraph modellens ytelse selv etter hvert som det syntetiske datasettet vokste til 600 millioner token. Evnen til å syntetisere større og mer varierte datasett muliggjorde en mer effektiv kunnskapsoverføring, og demonstrerte overlegenheten av denne metoden i å gjøre språkmodeller i stand til å lære fra små, spesialiserte datasett.

Avslutningsvis markerer introduksjonen av EntiGraph et betydelig fremskritt i å adressere utfordringene med dataeffektivitet i AI-modeller. Metoden genererer vellykket et mangfoldig, syntetisk korpus fra et lite datasett, og gjør det mulig for modellene å tilegne seg domene-spesifikk kunnskap mer effektivt. Denne forskningen fremhever en ny tilnærming som kan føre til videre utvikling i AI-treningsteknikker, spesielt for spesialiserte felt der data er begrenset. Resultatene viser at EntiGraph gir en levedyktig løsning for å overvinne begrensningene ved eksisterende metoder, og tillater språkmodeller å bedre tilpasse seg nisjeområder og utføre komplekse oppgaver med forbedret nøyaktighet.

Kilde: marktechpost.com

Dette innlegget ble opprettet med vårt fine og enkle innsending-skjema. Opprett ditt innlegg!