Alibaba lanserar Qwen2-VL: Överträffar GPT-4o och Claude 3.5 Sonnet

AI ModellerAlibaba lanserar Qwen2-VL: Överträffar GPT-4o och Claude 3.5 Sonnet

Alibaba lanserar Qwen2-VL: Överträffar GPT-4o och Claude 3.5 Sonnet

Alibaba har nyligen släppt Qwen2-VL, den senaste modellen i sin vision-språkserie som erbjuder en rad innovativa funktioner. Qwen2-VL kan kommunicera via kamera, spela kortspel och agera som en agent för att kontrollera mobiltelefoner och robotar. Modellen finns i tre versioner: öppen källkod på 2 miljarder och 7 miljarder parametrar, samt en avancerad modell på 72 miljarder parametrar som är tillgänglig via API.

Toppresultat i benchmarking och dokumentförståelse

Den avancerade 72-miljardersmodellen av Qwen2-VL har uppnått state-of-the-art-prestanda inom visuell förståelse över 20 olika benchmark-test. ”Vår 72B-modell visar topprestanda över de flesta mätvärden och överträffar ofta till och med stängda modeller som GPT-4o och Claude 3.5-Sonnet,” står det i företagets blogg, vilket understryker modellens betydande fördelar inom dokumentförståelse.

Qwen2-VL presterar exceptionellt väl i tester som MathVista (för matematisk resonemang), DocVQA (för dokumentförståelse), och RealWorldQA (för att svara på verkliga frågor med hjälp av visuell information).

Förmåga att hantera långa videor och avancerad kontroll

Modellen kan analysera videor som är längre än 20 minuter, skapa detaljerade sammanfattningar och svara på frågor om innehållet. Qwen2-VL kan även fungera som en kontrollagent, vilket innebär att den kan styra enheter som mobiltelefoner och robotar genom visuella signaler och textkommandon.

Qwen2-VL har också förmågan att känna igen och förstå text i bilder på flera språk, inklusive europeiska språk, japanska, koreanska och arabiska, vilket gör den tillgänglig för en global publik.

Hur man installerar modellen lokalt på datorn

Arkitektoniska förbättringar

En av de viktigaste arkitektoniska förbättringarna i Qwen2-VL är implementeringen av Naive Dynamic Resolution support. Modellen kan anpassa sig till och bearbeta bilder av olika storlekar och klarhet. ”Till skillnad från sin föregångare kan Qwen2-VL hantera godtyckliga bildupplösningar, vilket säkerställer konsistens mellan modellens indata och den inneboende informationen i bilder,” säger Binyuan Hui, skaparen av OpenDevin och huvudansvarig för Qwen.

Hui förklarar att detta närmar sig mänsklig visuell perception, vilket gör det möjligt för modellen att bearbeta bilder oavsett klarhet eller storlek. En annan viktig uppgradering är introduktionen av Multimodal Rotary Position Embedding (M-ROPE). ”Genom att dela upp den ursprungliga rotary embedding i tre delar som representerar tidsmässig och rumslig (höjd och bredd) information, möjliggör M-ROPE att LLM samtidigt kan fånga och integrera 1D textuell, 2D visuell och 3D video positionsinformation,” förklarar Hui.

Många användningsområden

Qwen2-VLanvändningsområden är många och varierade. William J.B. Mattingly, en digital nomad, lovordade modellen som sin nya favorit för Handwritten Text Recognition (HTR) när han försökte konvertera handskriven text till digitalt format. Ashutosh Shrivastava, en annan användare, använde modellen för att lösa ett kalkylproblem och rapporterade framgångsrika resultat, vilket bekräftar modellens giltighet inom problemlösning.

Trots att GitHub flaggat organisationen av okända skäl, finns uppdateringen tillgänglig på Hugging Face.

Kommentera:

Kommentar

Type at least 1 character to search
Kontakta oss:
Hitta oss i sociala medier: