Gecko: En ny standard för att testa AI-bildgeneratorer
Google’s DeepMind har introducerat en ny metod för att utvärdera AI-baserade bildgeneratorer (t.ex Midjourney, Stable Diffusion), ett system kallat ”Gecko”. Detta initiativ belyser bristerna i hur vi för närvarande bedömer dessa modellers förmåga att omvandla text till bilder. I en tid då bilder genererade av artificiell intelligens, som en astronaut på en häst eller en avokado i en terapistol, fascinerar allmänheten, uppstår frågan: Är dessa system verkligen så bra på att förstå och omvandla våra instruktioner (prompter) som vi tror?
I sin forskning, publicerad på t.ex arXiv, kritiserar DeepMind-teamet de nuvarande metoderna för att utvärdera sådana modeller, som DALL-E, Midjourney och Stable Diffusion. De menar att de dataset och automatiska mätvärden som oftast används idag inte helt och hållet fångar hur väl modellerna presterar i att generera relevanta bilder baserade på givna prompts.
Gecko – en ny riktning för tillförlitlig bedömning
Gecko-förslaget från DeepMind syftar till att införa en mer omfattande och pålitlig standard för att benchmarka den snabbt växande teknologin bakom AI-genererade bilder. Forskningen, som bär titeln ”Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings”, påpekar att småskaliga mänskliga utvärderingar erbjuder begränsad insikt, medan automatiska mätvärden ofta missar viktiga nyanser och ibland inte ens stämmer överens med mänskliga bedömare.
DeepMinds nya ansats strävar efter att skapa en mer robust ram för att systematiskt testa och jämföra AI-bildgeneratorers prestanda, med en starkare koppling till mänskliga bedömningsstandarder. Genom att använda både mänskliga omdömen och förfinade metriska system hoppas de kunna ge en mer holistisk bild av hur AI-system hanterar komplexa och kreativa uppgifter.
Kommentera: