Microsofts AI gör stillbilder till gifs

AI ModellerMicrosofts AI gör stillbilder till gifs

Microsofts AI gör stillbilder till gifs

Microsofts forskningsavdelning har nyligen lanserat en ny artificiell intelligensmodell, Pix2Gif, som kan omvandla stillbilder till gifs på bara några sekunder. Denna modell använder sig av en liknande diffusionsmodell som finns i många AI-text-till-video-modeller, såsom Runway och Pika Labs, men med ett unikt tillvägagångssätt för ”bildöversättning”. Den är byggd på Stable Diffusion som grundmodell.

Forskarna bakom den nya, offentligt tillgängliga modellen har fokuserat på att styra rörelsen genom en textprompt tillsammans med bildinmatningen. Modellen ”omvandlar rumsligt” funktionerna i den ursprungliga bilden baserat på textprompten.

Så fungerar Pix2Gif

Genom att ge modellen en bild av ett tåg och textprompten “rör sig på spåren” skapar den en gif där tåget verkar röra på sig. Även om det bara handlar om en 2 sekunder lång gif och därmed en begränsad rörelse, representerar detta ett nytt steg inom AI-generering som kombinerar bilder, video och 3D-modeller.

Exempel

Tillgänglighet och användning

Till skillnad från många andra nya AI-modeller är detta mer ett forskningsprojekt än en offentligt tillgänglig produkt från Microsoft som skulle kunna integreras i Copilot. Men koden är tillgänglig för nedladdning och kan köras lokalt på en dator. För tillfället är det bästa sättet att använda testmiljön, där man kan ge modellen en bild och en textprompt för att generera en gif.

I mina experiment tog det ungefär en minut att generera en 2 sekunders gif från en stillbild, även om detta kan vara snabbare med en kraftfull GPU.

Användningsområden för Pix2Gif

Den rörelsestyrda vridningsaspekten är möjligen mer intressant än förmågan att skapa en gif från en stillbild, eftersom detta skulle kunna tillämpas på andra video-liknande modeller i framtiden och potentiellt tillåta redigering av gifs.

En sådan teknik skulle kunna integreras i Microsoft Designer eller Paint för att underlätta animation eller till och med justeringar av en bild med hjälp av AI.

För att träna modellen användes 100 000 animerade gifs med lämpliga bildtexter, varifrån man extraherade bildrutor och använde bildtexterna som textprompter.

Det är inte klart var gifs:erna kommer ifrån, vilket kan vara anledningen till att projektet fortfarande betraktas som ett forskningsprojekt. En offentligt tillgänglig och kommersiell modell skulle kräva licensierade data, särskilt om den skulle integreras i en Microsoft-produkt.

För tillfället är Pix2Gif ett underhållande verktyg för att experimentera med hur en stillbild kan se ut om den hade några fler bildrutor. Personligen kommer jag att hålla mig till AI-videoverktyg som Runaway, Pika Labs och den kommande OpenAI Sora.

Kommentera:

Kommentar

Type at least 1 character to search
Kontakta oss:
Hitta oss i sociala medier: