
Harvard lanserar enormt AI-träningsdataset med stöd från OpenAI och Microsoft
Harvard University har presenterat ett dataset med nästan en miljon böcker från public domain, som nu blir tillgängliga för träning av AI-modeller. Datasetskapandet är en del av Harvard’s nya Institutional Data Initiative (IDI) och har finansierats av Microsoft och OpenAI. Böckerna, ursprungligen inskannade genom Google Books-projektet, spänner över flera genrer, tidsperioder och språk. Klassiker av Shakespeare och Dante samsas med obskyra läroböcker i matematik från Tjeckien och fickordböcker på walesiska.
Ett steg mot ökad AI-accessibilitet
Datasetet, som är fem gånger större än det omtalade Books3-datasetet, syftar till att demokratisera tillgången till högkvalitativt material för AI-träning. Enligt Greg Leppert, verkställande direktör för IDI, ska det jämna ut spelplanen genom att ge mindre aktörer och forskare tillgång till samma typ av resurser som stora teknikföretag har. ”Det har genomgått rigorös granskning,” säger Leppert, och påpekar att det kan kombineras med licensierat material för att bygga konkurrenskraftiga AI-modeller.
Stöd från Microsoft och OpenAI
Microsofts vice vd för immateriella rättigheter, Burton Davis, framhåller att projektet ligger i linje med företagets ambition att skapa tillgängliga datakällor för AI-utveckling. OpenAI har uttryckt liknande entusiasm och beskrivit stödet som en del av deras långsiktiga strategi för att stödja etiska och öppna AI-initiativ.
En växande trend för öppna datasets
Initiativet från Harvard är bara ett av många projekt som tar fram offentligt tillgängliga datasets. Andra exempel inkluderar det franska projektet Common Corpus, som innehåller 3–4 miljoner böcker och periodiska samlingar, samt initiativ som Source.Plus, en bilddatabas skapad av AI-startupen Spawning. Dessa projekt syftar till att erbjuda högkvalitativa resurser som inte riskerar juridiska problem kopplade till upphovsrätt.
Debatten om AI och upphovsrätt
Samtidigt som dessa datasets lanseras, fortsätter rättsprocesser kring användning av upphovsrättsskyddat material för AI-träning. En del menar att stora öppna databaser som Harvards underminerar argumenten från AI-företag som hävdar att upphovsrättsskyddat material är oumbärligt för att skapa högpresterande modeller.
Kommentera: