
Google imponerar med multimodal AI inför I/O-konferensen
ChatGPT släppte sin GTP-4o och den imponerar. Google är inte sena att kontra och kommer visa upp sin multimodala lösning Inför sin årliga utvecklarkonferens, I/O, har Google presenterat en förhandsvisning av sin senaste AI-teknologi, Gemini, som demonstrerar förmågan att tolka och analysera videoinnehåll i realtid. Detta drag kan ses som ett svar på OpenAI:s nyligen tillkännagivna AI-sökmotor.
Interaktion mellan människa och AI
Under en demonstration interagerade en person med Gemini genom att ställa frågor om vad som pågick i en video som visade en I/O-scen. Till skillnad från traditionella AI-system som enbart baseras på text, använde Gemini video och ljud för att ge sitt svar. Gemini identifierade snabbt att scenen tycktes vara en konferens eller presentation och frågade användaren om det fanns något specifikt denne ville veta mer om.
Detaljrikedom och anpassningsförmåga
När personen specificerade frågan till att omfatta bokstäverna ”IO”, insåg Gemini att det rörde sig om Google I/O. Denna förmåga att kombinera flera informationskällor i realtid illustrerar hur långt Googles AI har kommit och vad vi kan förvänta oss av framtida applikationer.
Framtidsutsikter för Googles AI-satsningar
Demonstrationen av Gemini är bara en försmak av vad som kommer att avslöjas under Google I/O, där företaget förväntas presentera flera nya AI-initiativ. Dessa innovationer är avgörande för Googles fortsatta ledarskap inom tekniksektorn och sätter en hög standard för konkurrenter som OpenAI.
Kommentera: