
AI-modeller som tränas på AI-genererad data producerar snabbt nonsens
Att träna AI-modeller på AI-genererad text leder snabbt till att modellerna börjar skapa nonsens, enligt en studie. Detta fenomen, kallat modellkollaps, kan stoppa utvecklingen av stora språkmodeller (LLMs) när de får slut på mänskligt genererad träningsdata och AI-genererad text ökar på internet.
Försiktighet krävs med träningsdata
”Vi måste vara mycket försiktiga med vad som hamnar i vår träningsdata,” säger Zakhar Shumaylov, medförfattare och AI-forskare vid University of Cambridge. Annars ”kommer saker alltid att gå fel”. Studien visade att problemet med modellkollaps är universellt och påverkar alla storlekar av språkmodeller som använder okurerad data, samt enkla bildgeneratorer och andra typer av AI.
Modellkollaps i praktiken
Forskarna använde en LLM för att skapa Wikipedia-liknande texter och tränade sedan nya versioner av modellen på den tidigare modellens text. När AI-genererad information, kallad syntetisk data, förorenade träningsuppsättningen blev modellens output nonsens. Den nionde versionen av modellen avslutade en Wikipedia-artikel om engelska kyrktorn med en uppsats om färgerna på jackkaninens svansar.
Mänskliga data är avgörande
Studien visade också att inlärning från AI-genererade texter gjorde att modeller glömde information som nämndes minst ofta i deras dataset, vilket gjorde output mer homogen. Detta är särskilt oroande för AI-modeller som ska representera alla grupper rättvist, eftersom lågprobabilitetshändelser ofta relaterar till marginaliserade grupper.
Analogin med inavel
Problemet liknas vid inavel i en art, säger Hany Farid, datavetare vid University of California, Berkeley. ”Om en art inavlar med sina egna avkommor och inte diversifierar sin genpool kan det leda till kollaps av arten.”
Åtgärder för att undvika kollaps
Modellkollaps innebär inte att LLMs slutar fungera, men kostnaden för att göra dem kommer att öka. Forskarna fann att när de tränade varje modell på 10% verklig data tillsammans med syntetisk data, inträffade kollapsen långsammare. För att undvika modellkollaps kan utvecklare behöva hitta sätt att hålla AI-genererad data åtskild från verklig data, som till exempel vattenmärkning, och filtrering av AI-genererad text innan den återgår till datamängden.
Sammanfattning
Modellkollaps är ett allvarligt hot mot utvecklingen av AI, men med försiktighet och rätt åtgärder kan det hanteras. För att säkerställa att AI fortsätter att förbättras måste vi säkerställa att träningen sker på en mångfald av mänskligt genererad data.
Kommentera: