Kan AI hjälpa till att designa vår maskot?

Bakgrund

Vi beställde ett antal designer på en välkänd frilanssida. Som referens bifogade vi instruktioner i beställningarna: "En snäll, hjälpsam tomtenisse med en tomtehuva", "Jag vill att det ska vara i stil med en maskotlogotyp eller kombinationslogotyp", "den ska vara söt" osv. Vi bifogade även några bilder på olika robotar och jag ritade en mycket enkel skiss.

Resultat från människor

Resultat från "AI"

Det här kommer att förändra hur grafisk formgivning utförs. Det kommer förmodligen bara ta några år eftersom de flesta komponenterna redan finns här. Det som saknas är egentligen bara att sätta ihop dem till en smidig tjänst.

Hur gjorde vi?

Vi började experimentera med CLIP och BigGAN via Ryan Murdocks "Big Sleep". Vi testade vilka typer av bilder vi kunde få fram genom att be den rita en grön robotraket med stora söta ögon. Till en början var resultaten inte särskilt lovande, men sedan klickade något – genom att puffa den med flera olika instruktioner fastnade den inte på samma ställe. Det skapade en ändlös ström av robotar.

Runt klockan 02:00 insåg jag att den förmodligen skulle kunna förstå vad jag var ute efter!

Fas 1

En febril aktivitet av genereringsförsök och olika metoder följde från oss alla tre. Vi lade till referensbilder som modellen kunde titta på och skrev även instruktioner som "en raket-robot" och "en robot med två söta ögon". Vi insåg att detta var en gångbar metod för att få inspiration till vår logotyp.

Vad är kreativitet? Vad är design?

Jag skulle vilja påstå att kompression är en stor del av det. Ta kubismen som exempel. Den verkliga världen existerar, kuber existerar. Komprimera dem och ett kreativt verk föds. Om det är något som neurala nätverk och transformatorer är bra på, så är det kompression. Om kreativitet delvis handlar om kompression, borde vi se bevis på "kreativitet" i dessa experiment: att söka efter och blanda stilar och objekt för att nå ett mål.

Låt oss titta på Filips meme-ögonblick: CITRONDVÄRGEN!

Filip hade flera instruktioner. Till exempel "en robot med stora ögon", en bild på en robot och en annan bild på en dvärg. Därefter lades instruktionen "en citron" till då och då. Nu tvingas modellen ändra sin vanliga kamp med att få fram en blandning av en robot och en dvärg – nu måste den även blanda in en citron. Resultatet blev en CITRONDVÄRGS-ROBOT!

Även om detta inte är "sann AI-kreativitet", blir gränserna definitivt suddigare. Modellen är inte tränad specifikt på dvärgar eller robotar. Den blandar bara sin förmåga att rita en kassettbandspelare, en bil och en hund för att skapa något annorlunda, mitt emellan dessa objekt.

Fas 2

Efter att ha genererat över 200 000 olika söta robotar ville vi prova något nytt. Jag skapade en ny metod för interaktionen mellan BigGAN och CLIP för att få andra resultat. Vi bytte ut referensbilderna och började experimentera med att skapa egna referensbilder.

Här använde vi de gamla instruktionerna och referensbilderna men lade till "minimalism" som instruktion. Med den nya metoden förändrades resultaten en del.

Kan vi göra vår nuvarande logotyp ännu bättre?

Låt oss lägga till dessa två bilder i modellen tillsammans med andra instruktioner som en astronauthjälm och ett stort visir, bland annat.

Jag skulle säga att det fungerar väldigt, väldigt bra. Skrämmande bra. Det här är ett fantastiskt verktyg för kreativitet.

Ibland är det dock en träff eller miss:

Tankeexperiment

Vi "visar" den bilderna ovan och namnen på några av våra favoritkonstnärer, och denna fantastiska bild genereras.

Slutligen ställer vi oss den sista frågan: i vilket skede av allt detta uppstod kreativiteten?

Var det vid uppfinningen av artificiella neurala nätverk?
Var det de enorma resurserna av bilder och text som finns tillgängliga online?
Var det DALL-E eller VAEs?
Var det transformatorer och visuella transformatorer?
Var det när Alec Radford med flera designade CLIP?
Var det när Ryan Murdock satte ihop allt?
Eller var det när vi promptade den med bilder och text och gav den ett syfte?

Sammanfattning

Ett problem kvarstår

Hur ska vi någonsin kunna välja en favorit bland allt som genererats? Vi löste egentligen inte problemet med att designa vår logotyp. Vi har snarare gjort det svårare för oss själva genom att upptäcka en nästan oändlig ström av robotdesigner.

Framtiden med oändligt innehåll närmar sig.

Tack till:

BigGAN — Large Scale GAN Training for High Fidelity Natural Image Synthesis Andrew Brock, Jeff Donahue, Karen Simonyan arxiv.org/abs/1809.11096

CLIP — Learning Transferable Visual Models From Natural Language Supervision Alec Radford, Jong Wook Kim m.fl. OpenAI Paper

DALL-E — Zero-Shot Text-to-Image Generation Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever arxiv.org/abs/2102.12092

Metoder inspirerade och utvecklade från Ryan Murdocks ursprungliga metod @advadnoun