Sky-T1 rekordbillig modell att träna

AI ModellerSky-T1 rekordbillig modell att träna

Sky-T1 rekordbillig modell att träna

Forskare från UC Berkeleys Sky Computing Lab har presenterat Sky-T1-32B-Preview, en resonemangsmodell som konkurrerar med tidigare versioner av OpenAI:s o1 på flera nyckelområden. Sky-T1 är banbrytande som en verkligt öppen källkodsmodell, där både dataset och träningskod har gjorts tillgängliga för offentligheten. Modellen har tränats för mindre än 450 dollar, vilket visar hur avancerad AI kan utvecklas kostnadseffektivt.

En prisrevolution inom AI-träning

För bara några år sedan kunde kostnaden för att träna AI-modeller av samma kaliber uppgå till miljontals dollar. Sky-T1:s utveckling är ett exempel på hur syntetiska träningsdata, genererade av andra AI-modeller, drastiskt har minskat kostnaderna. Exempelvis utvecklades modellen Palmyra X 004, nästan helt baserad på syntetiska data, för cirka 700 000 dollar. Sky-T1 demonstrerar att högpresterande resonemangsmodeller nu kan skapas för bråkdelar av den summan.

Vad skiljer resonemangsmodeller från andra AI-modeller?

Resonemangsmodeller har en unik förmåga att ”faktakolla” sig själva och undvika många vanliga fallgropar som andra modeller tenderar att fastna i. De tar ofta längre tid på sig att lösa problem, från sekunder till minuter, men resultatet är högre tillförlitlighet inom områden som fysik, vetenskap och matematik. För Sky-T1 användes en blandning av data från Alibabas resonemangsmodell QwQ-32B-Preview och refaktorerades med hjälp av OpenAI:s GPT-4o-mini för att skapa ett mer användbart dataset. Modellen, som har 32 miljarder parametrar, tränades på 19 timmar med åtta Nvidia H100 GPU:er.

Styrkor och svagheter hos Sky-T1

På test som MATH500, en samling av avancerade matematikproblem, överträffar Sky-T1 en tidigare version av OpenAI:s o1. Den presterar också starkt på LiveCodeBench, en kodutvärderingsplattform. Däremot ligger den något efter när det gäller GPQA-Diamond, ett test som fokuserar på frågor inom fysik, biologi och kemi på forskarnivå.

Det är viktigt att notera att OpenAI:s senare versioner av o1, samt kommande modeller som o3, förväntas vara ännu kraftfullare.

En ny era av öppen källkods-AI

NovaSky-teamet ser Sky-T1 som starten på en resa mot att utveckla mer effektiva öppna källkodsmodeller med avancerade resonemangsförmågor. Deras mål är att förbättra både prestanda och resurseffektivitet. Detta initiativ kan förändra landskapet för hur AI-modeller tränas och används i framtiden.

Kommentera:

Kommentar

Type at least 1 character to search
Kontakta oss:
Hitta oss i sociala medier: