Syntetisk mediehistoria

I projektets utforskning av relationen mellan artificiell intelligens och modernitet i Sverige under 1930-talet har vi intresserat oss för hur generativa modeller fungerr och återskapar det förflutna. Sådana modeller har inte bara blivit mer kapabla att syntetisera olika medier (text, bild, ljud och video). De har också blivit alltmer tillgängliga, både genom betaltjänster såsom OpenAI eller Midjourney eller gratis genom repositorier såsom HuggingFace där Alphabet, Meta och Microsoft regelbundet lägger upp tränade modeller för fri användning. Ett problem är dock att man i regel behöver tillgång till grafikkort med ganska kraftiga GPU:er. Man kan ta llama2 som exempel, den släpptes i flera olika storlekar varav vår projektdator klarar av att köra de två minsta (av fyra). Men för att träna om dem behövs GPU:er med mer än dubbelt så mycket VRAM än vad vi har tillgång till. När det gäller bildgenerering finns ett liknande problem, vi kan köra StableDiffusionXL-modellen utan problem och generera två högupplösta bilder per tjugonde sekund – men våra datorer räcker inte till för att träna om dessa modeller på ett historiskt korpus. Vi vet att många av bilderna från den korpus vi arbetar med – insamlade från DigitaltMuseum – redan figurerar i den data StabilityAI använt i träningen av sina StableDiffusion-modeller. Så modellen kan redan reproducera någon form av svenskhet, även om bilder med svensk proveniens utgör en ringa del av träningsmaterialet. Under våren har vi arbetat med att träna om modellen för att den bättre ska kunna skildra 1930-talets Sverige i bild – för att i nästa steg analysera resultat. För att kunna utföra denna omträning – så kallad fine-tuning – av den redan kapabla modellen, har vi ansökt om och fått tillgång till kraftfulla GPU:er vid Alvis-klustret i Göteborg genom NAISS (Natoinal Academic Infrastructure for Super-computing in Sweden). Med hjälp av denna nya datorkraft håller vi idag på med att träna om modeller på vårt insamlade material från 1930-talet – för att framgent generera en sorts syntetisk mediehistoria.