in

AI-kunstens Mareritt: Kan Vi Virkelig Stole På AI Til Å Lage Kunst?

En anonym Facebook-post som har sirkulert i det siste, har skapt stor oppmerksomhet. I posten deler en studiokunstdirektør sine erfaringer med å forsøke å ansette AI-promptere for å lage kunstverk. Problemet oppsto da de skulle gjøre mindre revisjoner i kunstverkene. Ved forespørsel om å fjerne en person fra et bilde eller fikse perspektivfeil, returnerte prompterne kunstverk som var fullstendig forskjellige fra originalene, eller inneholdt andre merkelige endringer som ikke passet med den opprinnelige oppgaven. Det er helt forståelig at det å prøve å revidere AI-generert kunst kan være så frustrerende.

For eksempel ba jeg nylig ChatGPT4 om følgende:

“Generer et bilde av en tyrannosaurus inne i en eske. Esken skal være lukket, og tyrannosaurusen skal ikke være synlig i det hele tatt.”

Jeg fikk denne fullstendig rimelige responsen:

“Det virker som du ber om et bilde som antyder tilstedeværelsen av en tyrannosaurus uten faktisk å vise den, siden den er fullstendig innelukket i en eske. Hvis tyrannosaurusen ikke er synlig, hvilke detaljer eller temaer vil du fokusere på for å antyde dinosaurens tilstedeværelse?”

Jeg bekreftet:

“Ingen tyrannosaurus synlig, bare noen lufthull for komfort.”

Og ChatGPT (ved bruk av DALL-E3 for bildegenerering) ga meg dette:

Resultatet var ikke helt der – en merkelig eske med symboler på siden som var forvirrende. Var det blekkspruter? En fugl som sitter på en gren? Kjevler?

ChatGPT har en funksjon hvor man kan viske ut enkelte deler av bildet og sende inn mer tekst for å beskrive hvordan man ønsker å endre de bildene. Jeg blokkerte ut linjen med symboler og ba om:

“Erstatt disse symbolene med en silhuett av en tyrannosaurus og ordet ‘DANGER’.”

ChatGPT produserte dette:

Det var delvis det jeg ba om, men silhuetten lignet ikke særlig på en tyrannosaurus. Jeg blokkerte igjen den delen av boksen og ba om flere revisjoner:

“T-rexen bør vende mot ordet ‘DANGER’. Silhuetten må ha det kraftige, tunge utseendet til en T-rex, spesielt i hodet og nakken.”

ChatGPT svarte med dette:

Dinosauren vendte bort, og det var ikke mot ordet ‘DANGER’, og silhuetten var fremdeles ikke veldig god. Jeg ba om flere revisjoner:

“Behold den tunge, mørke fonten, men gå tilbake til rød farge på advarselsteksten. T-rexen må vende mot ordene, ikke bort fra dem, og underkjeven er for tung.” ChatGPT svarte med dette:

Resultatet var fremdeles ikke tilfredsstillende. Ordet så mer ut som ‘dandier’ enn ‘danger’. Jeg fortsatte å be om justeringer:

“T-rexen må være ved siden av teksten, ikke oppå den. Hva er greia med den ekstra spisse pukkel på skuldrene? Underkjeven er fremdeles for tung.” ChatGPT svarte med dette:

Min reaksjon: … det er perfekt. Nå kan du beholde alt – teksturer, lys, materialer – det samme, men få boksen til å virke mye større? Akkurat nå ser den bare ut til å være knehøyde. Den må være stor nok til å holde en T-rex. ChatGPTs revisjon:

Resultatet ble verre jo mer revisjoner jeg ba om. Hvis jeg tillot ChatGPT å revidere hele bildet, startet prosessen på nytt.

Her er en lignende revisjonsprosess, denne gangen med forsøk på å revidere mot penere paier.

Meg: “Generer et bilde av en sjiraff som deltar i den store britiske bake-off.”

Revisjon 1: Jeg visket ut disken og ba om at sjiraffen skulle lage en kirsebærpai med intrikat gitterverk.

Under følger revisjon 5, der det blir tydelig at jo mer jeg ba om intrikat gitterverk, desto sloppere ble det. Jo mer jeg ba om en dyp paiform, desto tynnere ble paien. Og jo mer jeg maste om en enkelt pai, desto flere paier fikk jeg.

Når jeg ikke begrenset endringene til en bestemt del av bildet, fikk jeg mye bedre resultater, men også en stor tilbakestilling. I bildet nedenfor ba jeg ChatGPT/DALLE3 om å beholde hver detalj nøyaktig den samme, men legge til at vi kan se at det regner utenfor teltet. Ikke bare endret det bildet fullstendig, men det regner heller ikke.

Mitt prompt: “Perfekt. Vennligst behold bildet akkurat som det er, men vis at det regner kraftig utenfor teltet.” I dette bildet ba jeg om en slange som maler et bilde av en bjørn, og deretter visket jeg ut maleriet og ba om at bjørnen skulle stå på alle fire. Revisjonen ble mye verre.

Bildebeskrivelse: Til venstre er en regnbuefarget slange som er krøllet seg foran et staffeli. (Slangens krølle deler seg i to, så jeg antar at det er en gaffelhalet slange). På staffeliet er et maleri av en sittende bjørn. Det er ganske realistisk. Til høyre har bjørnen blitt erstattet av en mindre, mye dårligere kopi av slangen. Det er ingen bjørn.

Her er et annet eksempel på at jeg ba om et rådyr i en dagligvarebutikk, og deretter ba om at rådyret skulle være en fawn i stedet. Etter revisjon 5 (med forsøk på å gi fawnen flekker, forsøke å fikse skyggene som fikk den til å virke svevende), hadde både kvaliteten på rådyret og bakgrunnen i dagligvarebutikken forverret seg.

Bildebeskrivelse: I det originale bildet til venstre ser rådyret litt ut som en plastikkmannequin, men passer lys- og skyggemessig med resten av dagligvarebutikken. I det reviderte bildet til høyre er rådyret nå en fawn med underlig flat shading, superimponert på scenen i stedet for å stå i den. Øynene er underlig flytende og 3D, mens resten av fawnen stirrer rett på kameraet uten tilsynelatende dybde. Der bakgrunnen i dagligvarebutikken er revidert, har hyllene mistet alle detaljer og likheter med en dagligvarebutikk, og taklysarmaturen går nå ned i gulvet.

Her er et engangseksempel der jeg ba ChatGPT/DALL-E3 om å generere et skadet fresco av Jesus, og deretter restaurere fresken til så god som ny.

Bildebeskrivelse: Bildet til venstre viser et skadet fresco av Jesus (med karakteristiske lange fingre som er koblet til begge hendene). Bildet i midten er det samme, bortsett fra Jesu ansikt og glorie, som ikke lenger ser skadet ut. Men Jesu ansikt er nå rare glatt og skinnende og passer ikke lenger med resten av maleriet, og øynene hans er rare blå og svarte spiraler. Bildet til høyre har Jesu ansikt i en helt annen, nesten airbrushet stil, og øynene matcher ikke lenger.

Så, hver gang AI blir bedt om å revidere et bilde, enten starter den på nytt eller gjør det mer og mer til en katastrofe. Folk som arbeider med AI-genererte bilder må tilpasse sin kreative visjon til det som kommer ut av systemet – eller gå inn med en mentalitet om at alt som passer til oppgaven er godt nok.

Det er også et faktum at bildegenererende modeller direkte konkurrerer med kunstnere hvis arbeid ble brukt til å trene opp disse modellene uten tillatelse eller kompensasjon. Videre har treningen og bruken av modellene et stort miljøavtrykk. AI-generert billedkunst har blitt et varseltegn om at en annonse, et søkeresultat eller en forskningsartikkel er en svindel.

Jeg er ikke overrasket over at det er noen steder som leter etter billige fyllbilder som ikke bryr seg om problemene med AI-generert kunstverk. Men for alle andre tror jeg det raskt blir klart at man trenger en ekte kunstner, ikke en etterligning.

Bonusinnhold: en enhjørning går latterlig galt.

Kilde: AI Weirdness