NVIDIA AI presenterar AI modellen ’VILA’ som kan resonera mellan flera bilder och förstå videor
Forskningen inom AI utvecklas snabbt och kräver modeller som kan hantera storskalig data och leverera precisa, handlingsbara insikter. Forskarna strävar efter att skapa system som kan lära sig kontinuerligt och anpassa sig, vilket är avgörande för att förbli relevanta i dynamiska miljöer.
Utmaningen med kontinuerligt lärande
En stor utmaning i utvecklingen av AI-modeller är att övervinna problemet med katastrofalt glömska, där modeller misslyckas med att behålla tidigare inlärd kunskap när de lär sig nya uppgifter. Detta blir särskilt viktigt då applikationer kräver kontinuerlig inlärning, som inom hälso- och sjukvård, finansiell analys och autonoma system. Problemet är att utforma modeller som kan lära sig ny information effektivt utan att kompromissa med tidigare insikter.
Existerande lösningar och deras begränsningar
Nuvarande forskning inkluderar Elastic Weight Consolidation (EWC), som förhindrar katastrofalt glömska genom att straffa viktiga viktändringar, samt replay-baserade metoder som Experience Replay, som förstärker tidigare kunskap genom att återspela tidigare erfarenheter. Modulära neurala nätverksarkitekturer, som Progressive Neural Networks, lägger till delnätverk för nya uppgifter, medan meta-lärandemetoder som Model-Agnostic Meta-Learning (MAML) tillåter modeller att snabbt anpassa sig till nya uppgifter med minimal data. Varje metod har sina unika kompromisser när det gäller komplexitet, effektivitet och anpassningsförmåga.
VILA: En ny approach för visuella språkmodeller
Forskare från NVIDIA och MIT har introducerat ett nytt pre-trainingsramverk för visuella språkmodeller (VLM), VILA, som betonar effektiv inbäddningsjustering och använder dynamiska neurala nätverksarkitekturer. Denna forskning skiljer sig genom att använda en kombination av sammanflätade korpus och gemensam övervakad finjustering (SFT) för att förbättra visuella och textuella inlärningsförmågor. VILA-ramverket betonar bevarandet av inlärningsförmågan i kontext samtidigt som generaliseringsförmågan förbättras, vilket säkerställer att modellerna kan hantera komplexa uppgifter effektivt.
Förbättrad visuell och textuell inriktning
För att förbättra visuell och textuell inriktning förutbildades VILA på storskaliga dataset som Coyo-700m. Forskarna använde en grundläggande LLaVA-modell för att testa olika pre-training-strategier, jämförande mellan att frysa och uppdatera den stora språkmodellen (LLM) under träning. De introducerade Visual Instruction Tuning för att finjustera modellerna med visuella språkdatamängder genom promptbaserad instruktionsinställning. Utvärderingsprocessen inkluderade att testa de förutbildade modellerna på benchmarks som OKVQA och TextVQA för att bedöma visuell frågesvars-kapacitet, specifikt mätande VILAs noggrannhet och inlärningsförmåga i kontext.
Resultat och framtida implikationer
VILA visade betydande resultat i att förbättra VLM-prestanda. Modellen uppnådde en genomsnittlig noggrannhet på 70,7 % på OKVQA och 78,2 % på TextVQA, vilket överträffade befintliga benchmarks med märkbara marginaler. Dessutom behöll VILA upp till 90 % av tidigare inlärd kunskap när den lärde sig nya uppgifter, vilket minskar katastrofalt glömska och visar att VILA kan anpassa sig till nya visuella språkuppgifter samtidigt som den bibehåller tidigare kunskap.
Forskningen presenterade ett nytt ramverk för pre-training av VLMs, som betonar inbäddningsjustering och effektiv uppgiftsinlärning. Genom att använda innovativa tekniker som Visual Instruction Tuning och utnyttja storskaliga dataset, visade VILA förbättrad noggrannhet i visuella frågesvarsuppgifter. Forskarna betonade vikten av att balansera ny inlärning med bibehållen tidigare kunskap, vilket reducerar katastrofalt glömska. Denna metod bidrar avsevärt till att avancera VLMs, vilket möjliggör mer effektiva och anpassningsbara AI-system för diverse verkliga applikationer.
Kommentera: