
Apple har lanserat OpenELM som går att köras lokalt på enheter
När Google, Samsung och Microsoft fortsätter sina satsningar på generativ AI för PC och mobila enheter, gör Apple nu sitt inträde med OpenELM, en ny familj av öppen källkod språkmodeller (LLMs) som kan köras helt och hållet på en enskild enhet utan att behöva ansluta till molnservrar.
Effektiva AI-modeller för textgenerering
OpenELM, som släpptes nyligen på AI-kodcommunityt Hugging Face, består av små modeller designade för att effektivt utföra textgenereringsuppgifter. Det finns åtta OpenELM-modeller totalt – fyra förtränade och fyra instruktionsanpassade – med olika parametrar mellan 270 miljoner och 3 miljarder.
Pre-träning och instruktionsanpassning
Pre-träning är en metod för att få en språkmodell att producera sammanhängande text, men det är huvudsakligen en förutsägande övning. Instruktionsanpassning, å andra sidan, gör modellen bättre på att svara med relevanta utdata på specifika förfrågningar. Till exempel kan en förtränad modell svara på ”lär mig baka bröd” med ”i en hemmaugn”, medan en instruktionsanpassad modell skulle ge detaljerade steg-för-steg instruktioner.
Öppen källkod med kommersiella möjligheter
Apple erbjuder OpenELM-modellernas vikter under en ”exempelkodlicens,” tillsammans med olika kontrollpunkter från träningen, prestandastatistik och instruktioner för pre-träning, utvärdering, instruktionsanpassning och parameter-effektiv finjustering. Licensen tillåter kommersiell användning och modifiering, med krav på att behålla viss information vid omfördelning av koden.
Säkerhet och ansvar
Apple påpekar att modellerna ”tillhandahålls utan några säkerhetsgarantier,” vilket innebär att de kan generera felaktiga, skadliga, partiska eller stötande svar. Detta är en del av en överraskande serie av öppen källkod AI-modellsläpp från Apple, som vanligtvis är en mycket sluten teknikjätte.
Teknisk specifikation och prestanda
OpenELM-modellerna, som varierar mellan 270 miljoner och 3 miljarder parametrar, har förtränats på publika dataset innehållande 1,8 biljoner tokens från källor som Reddit, Wikipedia och arXiv.org. Modellerna är optimerade för att köras på vanliga bärbara datorer eller till och med vissa smartphones.
Apple använder en lagerbaserad skalningsstrategi för att fördela parametrar inom varje lager av transformer-modellen, vilket förbättrar noggrannheten samtidigt som beräkningsresurserna används effektivt. Prestandamässigt visar Apples resultat att OpenELM-modellerna presterar respektabelt, med särskilt goda resultat från 450 miljoner parameter-instruktionsvarianten.
Framtida utveckling och potential
Även om OpenELM ännu inte testats allmänt, visar Apples publicering på HuggingFace att man siktar på applikationer som kan köras direkt på enheter, liknande Googles, Samsungs och Microsofts senaste modeller. I längden förväntas OpenELM förbättras, och det blir intressant att se hur communityt utnyttjar Apples öppen källkod-initiativ i olika applikationer.
Kommentera: