Deepseek kostnader missvisande

AI ModellerDeepseek kostnader missvisande

Deepseek kostnader missvisande

DeepSeek har snabbt blivit en av de mest omtalade AI-modellerna i världen. Dess dagliga trafik har nu passerat etablerade aktörer som Claude, Perplexity och till och med Googles Gemini. Men trots hypen är det få experter som ser modellen som en revolution. Snarare handlar det om en mycket skickligt genomförd teknisk optimering – och möjligtvis en strategisk prissättning.

DeepSeek backas av High-Flyer som investeras stort

Bakom DeepSeek finns hedgefonden High-Flyer, en tidig AI-adopterare inom finanssektorn. Redan 2021 investerade företaget i 10 000 A100-GPU:er, vilket gav dem ett enormt försprång innan USA:s exportrestriktioner trädde i kraft. DeepSeek grundades senare som ett fristående bolag i maj 2023 och har sedan dess vuxit snabbt, med stöd av High-Flyers kapital och resurser.

DeepSeek och High-Flyer delar både beräkningskapacitet och personal, och har i dagsläget tillgång till cirka 50 000 Nvidia Hopper-GPU:er, inklusive 10 000 H100 och lika många H800, samt ytterligare beställningar på H20. Deras uppskattade serverinvestering ligger på 1,6 miljarder dollar, med årliga driftskostnader på närmare en miljard dollar.

Den verkliga kostnaden bakom DeepSeek

Ett av de största diskussionsämnena kring DeepSeek har varit dess påstått låga träningskostnad på 6 miljoner dollar för modellen V3. Men enligt experter är den siffran missvisande. Den inkluderar enbart GPU-kostnaden för den slutliga träningskörningen och exkluderar alla andra kostnader, såsom forskning och utveckling, arkitektoniska innovationer och datainsamling.

Jämförelser med andra AI-modeller visar att den faktiska kostnaden måste vara betydligt högre. Anthropic spenderade exempelvis tiotals miljoner dollar på att träna Claude 3.5 Sonnet – och det är bara en del av deras totala utvecklingskostnader. DeepSeeks verkliga budget uppskattas därför vara långt över 500 miljoner dollar, vilket visar att modellen långt ifrån är en lågkostnadsprodukt.

DeepSeek V3 – ett tekniskt genombrott eller bara optimering?

DeepSeek V3 har hyllats för sin prestanda, men jämförelser med OpenAIs GPT-4o visar att AI-landskapet förändras snabbt. AI-labb har blivit betydligt bättre på att skapa modeller med lägre beräkningskostnad, och DeepSeek har varit först med att använda vissa optimeringstekniker, som:

Multi-Token Prediction (MTP): Förbättrar modellens inlärning genom att förutsäga flera ord samtidigt.

Mixture of Experts (MoE): En modellarkitektur där flera specialiserade delmodeller arbetar tillsammans.

Multi-head Latent Attention (MLA): Minskar minnesanvändningen i inferensprocessen med över 90 %, vilket drastiskt sänker kostnaderna.

Dessa tekniker har lett till att DeepSeek kan erbjuda en konkurrenskraftig AI till låg kostnad – men det betyder inte att deras faktiska utgifter är låga. Tvärtom tyder analyser på att DeepSeek subventionerar sin inferens för att snabbt vinna marknadsandelar.

AI-kapplöpningen mellan Kina och väst

DeepSeeks snabba framsteg har lett till spekulationer om Kinas strategi inom AI. Att Kina kan utveckla en toppmodell till en bråkdel av kostnaden jämfört med OpenAI och Google är anmärkningsvärt – men mycket tyder på att det är en illusion skapad av smart prissättning och tidiga investeringar i hårdvara.

Modellen har dock gjort tydligt att kinesiska AI-labb är kapabla att konkurrera på högsta nivå. Det återstår att se hur västerländska aktörer svarar på denna utmaning, och om DeepSeek verkligen kan hålla sina priser nere i längden.

Källor: SemiAnalysis, Artificialanalysis.ai, a16z

Type at least 1 character to search
Kontakta oss:
Hitta oss i sociala medier: