in

MagpieLM-Chat Modeller Fra Universitetet i Washington og Ai2 Tilgjengelig for AI-Forskning

Universitetet i Washington og Allen Institute for AI (Ai2) har nylig gitt AI-forskningsmiljøet et betydelig bidrag ved å slippe sine nyeste språkmodeller: MagpieLM-4B-Chat-v0.1 og MagpieLM-8B-Chat-v0.1. Disse modellene er en del av det større MagpieLM-prosjektet og er spesielt utviklet for å møte det økende behovet for språkmodeller som kan håndtere avanserte tekstgenereringsoppgaver, samtidig som de ivaretar menneskelige verdier og forventninger. Modellene er fritt tilgjengelige på Hugging Face, og de har allerede skapt begeistring i AI-forskermiljøet på grunn av deres ytelse og åpenhet.

magpielm-chat-modellene

MagpieLM-Chat-modellene, henholdsvis MagpieLM-4B-Chat-v0.1 og MagpieLM-8B-Chat-v0.1, er språkmodeller spesifikt optimalisert for “alignment”, noe som betyr at de er trent for å sikre at deres utdata samsvarer med menneskelige instrukser, etiske standarder og atferdsforventninger. 8B-versjonen representerer en modell med 8 milliarder parametere, mens 4B-versjonen er en komprimert variant, redusert i størrelse, men likevel svært effektiv.

Begge modellene ble trent ved bruk av syntetiske data generert via en unik teknikk kalt Magpie. Denne metoden ble utviklet for å forbedre “alignment” hos store språkmodeller (LLMs). Ved å bruke syntetiske data kunne Magpie-teamet lære disse modellene å forstå og reagere på menneskelige instrukser på en mer forutsigbar og tilpasset måte. Modellene er basert på Metas LLaMA-3.1-8B, en avansert språkmodell, mens 4B-versjonen ble destillert av NVIDIA for å optimalisere ytelsen ytterligere uten å gå på bekostning av kvaliteten.

åpenhet og tilgjengelighet

En av de mest bemerkelsesverdige aspektene ved MagpieLM-Chat-prosjektet er forpliktelsen til åpenhet og reproduserbarhet. Modellene, sammen med all relevant treningsdata, konfigurasjoner og loggfiler, er gjort offentlig tilgjengelig. Dette inkluderer to viktige datasett: Supervised Fine-Tuning (SFT) og Direct Preference Optimization (DPO) data. Ved å gjøre disse tilgjengelige, får forskere muligheten til å gjenskape trenings- og “alignment”-prosessene, noe som er et viktig skritt mot å demokratisere AI-forskning og sørge for at flere får tilgang til verktøyene som trengs for å bygge etiske og tilpassede språkmodeller.

Tilgjengeligheten av SFT- og DPO-datasett gir forskere mulighet til enten å forbedre “alignment” i egne modeller eller eksperimentere med ulike treningsmetoder. Disse datasettene er essensielle for å trene språkmodeller til å være mer samkjørte, med fokus på hvordan modeller kan finjusteres basert på menneskelige preferanser og tilbakemeldinger for å sikre at deres svar er nøyaktige, etiske og kontekstuelt riktige.

sterk ytelse og benchmarking

MagpieLM-Chat-modellene har vist seg å prestere svært godt på flere viktige evalueringsbenchmarks. Eksempler på disse benchmarkene er WildBench, ArenaHard og AlpacaEval, som tester modellers evne til å håndtere komplekse og virkelighetsnære oppgaver.

Modellene utpreget seg spesielt innen disse testene, og ble rangert blant de beste åpne “aligned” språkmodellene. WildBench måler en modells evne til å håndtere ulike oppgaver på tvers av domener, ArenaHard tester modellens ferdighet i å forstå mer krevende og nyanserte instrukser, mens AlpacaEval evaluerer kvaliteten på generell tekstgenerering. At MagpieLM-Chat-modellene klarte seg så bra i disse evalueringene, understreker hvor effektiv Magpie-metoden er, samt grundigheten i justeringsprosessen etter trening.

tilgjengelige datasett: sft- og dpo-data

I tillegg til MagpieLM-Chat-modellene, har teamet også offentliggjort to store datasett: MagpieLM-SFT-Dat-v0.1 og MagpieLM-DPO-Data-v0.1. Disse datasettene representerer en omfattende ressurs for AI-forskere som er interessert i “alignment” og teknikker for justering etter hovedtreningen.

SFT-datasettet (Supervised Fine-Tuning Data) består av rundt 550 000 datapunkter som nøye er kuratert for å forbedre den veiledede finjusteringen av språkmodeller. Dette er en essensiell treningsmetode som gjør det mulig for AI-modeller å lære fra merkelappede eksempler, noe som gradvis forbedrer deres nøyaktighet i å følge menneskelige instrukser.

DPO-datasettet (Direct Preference Optimization Data) inneholder om lag 200 000 datapunkter og tillater modeller å trenes basert på preferansesignaler. DPO er en viktig teknikk innenfor forsterkningslæring (reinforcement learning), som gir modellene muligheten til å generere nøyaktige svar og rangere dem i henhold til menneskelige preferanser, slik at de mest tilpassede og kontekstrettede svarene prioriteres.

ettertrening og syntetiske data

Kjernen i denne lanseringen er Magpie-metoden, som fokuserer på ettertrening gjennom bruk av syntetiske data. Denne prosessen bygger på ferdigtrente modeller som LLaMA, og finjusterer deres atferd slik at det blir mest mulig i tråd med menneskelige mål. Ettertrening er en viktig del av moderne AI-utvikling, da det gjør det mulig å ta sterke, generelle språkmodeller og justere dem til å generere etisk forsvarlige og kontekstuelt riktige svar.

De syntetiske dataene som ble brukt under denne prosessen, dekker mange ulike situasjoner. Dette gjør at modellene kan reflektere mer nøyaktige svar i et bredt spekter av kontekster og i situasjoner hvor svarene kan være sensitive eller vanskelige å tolke.

veien videre: datamodell-kompatibilitet

Lanseringen av MagpieLM-Chat-modellene og de tilhørende datasettene er bare begynnelsen. Forskerteamet har antydet at kommende utviklinger vil fokusere på datamodell-kompatibilitet, et viktig forskningsområde innen AI. Dette dreier seg om å sikre at dataene som brukes til å trene modeller, er kompatible med modellens spesifikke egenskaper, noe som fører til mer effektiv og treffsikker opplæring.

Teamet planlegger å dele ytterligere innsikt og forskning på dette området, noe som potensielt kan bidra til å styrke “alignment”-kapabilitetene i store språkmodeller og forsterke arbeidet omkring AI-etikk.

Denne nyheten vises opprinnelig på marktechpost.com.