Microsofts Phi-3 visar överraskande kraft för små, lokalt körda AI-språkmodeller

AI ModellerMicrosofts Phi-3 visar överraskande kraft för små, lokalt körda AI-språkmodeller

Microsofts Phi-3 visar överraskande kraft för små, lokalt körda AI-språkmodeller

Microsoft har lanserat Phi-3-mini, en ny lättvikts-AI-språkmodell som är enklare och billigare att driva än traditionella stora språkmodeller (LLMs) som OpenAIs GPT-4 Turbo. Den lilla storleken gör att den kan köras lokalt, vilket möjliggör en AI-modell med liknande kapacitet som den fria versionen av ChatGPT på en smartphone utan att behöva internetanslutning.

Parameterräkning och prestanda

Inom AI-fältet mäts språkmodellers storlek genom antalet parametrar. Parametrar är numeriska värden i ett neuralt nätverk som bestämmer hur språkmodellen bearbetar och genererar text. De lärs in under träning på stora dataset och kodar modellens kunskap i kvantifierad form. Fler parametrar tillåter modellen att fånga mer nyanserade och komplexa språkgenereringskapaciteter, men kräver också mer datorkraft att träna och köra.

De största språkmodellerna idag, som Googles PaLM 2, har hundratals miljarder parametrar. OpenAIs GPT-4 tros ha över en biljon parametrar, fördelade över åtta 220-miljarder parameter-modeller i en mixture-of-experts-konfiguration. Dessa modeller kräver kraftfulla datacenter-GPU:er för att fungera korrekt.

Optimerad för konsumenthårdvara

Phi-3-mini från Microsoft innehåller endast 3,8 miljarder parametrar och har tränats på 3,3 biljoner tokens. Detta gör den idealisk för att köra på konsument-GPU:er eller AI-accelerationshårdvara som finns i smartphones och bärbara datorer. Phi-3-mini har ett kontextfönster på 4 000 tokens, men Microsoft har även introducerat en 128K-token version kallad ”phi-3-mini-128K.”

Microsoft har också utvecklat 7-miljarder och 14-miljarder parameterversioner av Phi-3 som planeras att släppas senare, och som enligt företaget är ”avsevärt mer kapabla” än phi-3-mini.

Effektiv och robust AI-modell

Phi-3:s prestanda sägs ”konkurrera med modeller som Mixtral 8x7B och GPT-3.5,” enligt en rapport från Microsoft. Mixtral 8x7B från franska AI-företaget Mistral använder en mixture-of-experts-modell, och GPT-3.5 driver den fria versionen av ChatGPT.

AI-forskaren Simon Willison uttryckte att Phi-3 ”verkar vara en chockerande bra liten modell om deras benchmarks speglar vad den faktiskt kan göra.” Efter att ha testat modellen på sin Macbook kommenterade Willison, ”Jag fick det att fungera, och det är BRA.”

Innovativ träning och miljöpåverkan

Microsofts forskare har åstadkommit denna effektivitet genom att använda noggrant utvalda, högkvalitativa träningsdata från bland annat läroböcker. ”Innovationen ligger helt i vårt dataset för träning, en uppskalad version av den som användes för phi-2, bestående av kraftigt filtrerade webbdata och syntetiska data,” skriver Microsoft.

Små, effektiva AI-modeller som Phi-3 kan minska behovet av större modeller för vardagliga uppgifter, vilket potentiellt kan minska AI:s miljöpåverkan avsevärt. Phi-3 finns tillgänglig på Microsofts molntjänstplattform Azure, samt genom partnerskap med Hugging Face och Ollama.

Kommentera:

Kommentar

Type at least 1 character to search
Contact us:
Find us elsewhere: