Syntetisk mediehistoria

I projektets utforskning av relationen mellan artificiell intelligens och modernitet i Sverige under 1930-talet har vi intresserat oss för hur generativa modeller fungerr och återskapar det förflutna. Sådana modeller har inte bara blivit mer kapabla att syntetisera olika medier (text, bild, ljud och video). De har också blivit alltmer tillgängliga, både genom betaltjänster såsom OpenAI eller Midjourney eller gratis genom repositorier såsom HuggingFace där Alphabet, Meta och Microsoft regelbundet lägger upp tränade modeller för fri användning. Ett problem är dock att man i regel behöver tillgång till grafikkort med ganska kraftiga GPU:er. Man kan ta llama2 som exempel, den släpptes i flera olika storlekar varav vår projektdator klarar av att köra de två minsta (av fyra). Men för att träna om dem behövs GPU:er med mer än dubbelt så mycket VRAM än vad vi har tillgång till. När det gäller bildgenerering finns ett liknande problem, vi kan köra StableDiffusionXL-modellen utan problem och generera två högupplösta bilder per tjugonde sekund – men våra datorer räcker inte till för att träna om dessa modeller på ett historiskt korpus. Vi vet att många av bilderna från den korpus vi arbetar med – insamlade från DigitaltMuseum – redan figurerar i den data StabilityAI använt i träningen av sina StableDiffusion-modeller. Så modellen kan redan reproducera någon form av svenskhet, även om bilder med svensk proveniens utgör en ringa del av träningsmaterialet. Under våren har vi arbetat med att träna om modellen för att den bättre ska kunna skildra 1930-talets Sverige i bild – för att i nästa steg analysera resultat. För att kunna utföra denna omträning – så kallad fine-tuning – av den redan kapabla modellen, har vi ansökt om och fått tillgång till kraftfulla GPU:er vid Alvis-klustret i Göteborg genom NAISS (Natoinal Academic Infrastructure for Super-computing in Sweden). Med hjälp av denna nya datorkraft håller vi idag på med att träna om modeller på vårt insamlade material från 1930-talet – för att framgent generera en sorts syntetisk mediehistoria.

Moderna tider 1936 på Flickr

En hel del av det mediematerial som vi arbetar med i vårt forskningsprojekt består av fotografiskt material. Vi har därför skapat ett konto på fotoplattformen Flickr, som i nuläget består av tre album. I albumet The Swedish History that Never Was visas några exempel på när vi använt generativa bildmodeller för att skapa fotografier som vore de tagna i Sverige under 1930-talet. Oaktat bildernas tekniska och estetiska kvaliteter, säger resultaten någonting om hur generativ AI läser historiskt källmaterial. En kuslig bild på en ung pojke i militäruniform beror sannolikt på att AI-modellen genererat honom eftersom en betydande del av alla fotografier från Sverige under 1930-talet är tagna i militära miljöer. Det andra albumet, Reinventing the Wheel, innehåller arbetsunderlag från när vi använt objektigenkänningsmodeller för att hitta bilder som innehåller hjul av olika slag. Denna förhistoriska uppfinning framstår som en något paradoxal symbol för och element av svensk modernitet. I det tredje albumet, Super Resolution Fantasies, visas några resultat från våra försök att skala upp bilder med hjälp av AI-modeller – så kallad upscaling. Ett syfte med uppskalningsprojektet var att se vilken effekt som artificiell ökning av bildupplösning hade på precisionen hos objektigenkänningsmodeller. Vi märkte dock snabbt att uppskalningsmodeller skapade förvrängda och påhittade motiv i fotografierna. Modeller som egentligen enkom ska öka bilders upplösning blev i någon mån kreativa aktörer – med egen fantasi.

Forskningsprojekt på Youtube

Inom ramen för vårt forskningsprojekt så kommer vi att arbeta en hel del med rörlig bild. Därför har vi startat en Youtube-kanal där vi kommer att publicera somligt filmmaterial. Nu under hösten 2023 har vi inom projektet haft ett samarbete med AI- och koloreringskonstnären ColorByCarl – som egentligen heter Carl Hamnede. Han har gjort sig ett namn på Youtube genom att publicera video-bearbetningar av tidig svensk film (bland annat färgläggning med AI, liksom algoritmisk uppskalning och restaurering). Resultatet blir levande och färggranna historiska filmsekvenser i 4K-upplösning. För en kommande artikel till tidskriften Journal of Scandinavian Cinema så lät vi ColorByCarl iordningställa en antal olika versioner av ett tidigt filmfragment (SF2059) inspelat av Svenska Bio i Nyköping omkring 1910. Det handlar om en kort sekvens där biografpubliken går ut ur den lokala biografen, ett PR-trick för att locka folk tillbaka för att se sig själva på film. ColorByCarl har bearbetat sekvensen på olika sätt – vilka kan beskådas på forskningsprojektets Youtube-kanal. Artikeln som vi skickat till tidskriften (skriven av Emil Stjernholm och Pelle Snickars) kallar vi för “Upscaling Swedish Biograph” – med följande abstract:

“Following a boom of user-friendly artificial intelligence tools in recent years, AI-enhanced (or manipulated) films have been framed as a serious threat to film archives. Film archivists are usually conservative; following their métier they are in the business of safeguarding film heritage. Today, however, the film archive – understood in a wide sense – is also elsewhere, most prominently online. The purpose of this article is to trace and critically evaluate how AI artists use algorithmic upscaling to modify early cinema, more particularly surviving films of the film company Swedish Biograph, and how fragments of this company’s cinematic past circulate online today. Drawing on a collaboration with Swedish AI-artist ColorByCarl, we study the procedures within the AI enhancement community behind the scenes. In doing so, we highlight AI’s potential to encourage reuse, remix and rediscovery of our filmic past.”

Att annotera bilder

Jag heter Robert Aspenskog och jag har fått förmånen att genomföra forskningspraktik vid projektet Moderna tider 1936 under hösten 2023. Det gör jag som en del av mina studier inom masterprogrammet i digital humaniora vid Göteborgs universitet. Min roll kommer vara att mer eller mindre agera forskningsassistent med allt vad det innebär: bland annat att förbereda data för vidare undersökningar och analyser, bistå i författande av kortare texter till kommande publiceringar och sammanställa litteraturlistor. Därtill kommer jag att ta tillfället i akt att börja förbereda min masteruppsats i digital humaniora som jag ska börja skriva efter årsskiftet. Jag har sedan tidigare en kandidatexamen i historia med kurser från Karlsuniversitetet i Prag och Göteborgs universitet. Parallellt med DH-programmet läser jag kurser för att kunna ta ut en masterexamen även i historia – med det långsiktiga målet att forska inom digital historia.

När jag för drygt två veckor sedan sedan började mitt arbete för Moderna tider 1936 fick jag som första uppgift att annotera några tusen slumpmässiga bilder av de cirka 70 000 digitiserade fotografier som ingår i ett dataset som projektet satt samman. Vårt första steg är att träna upp en scenigenkänningsmodell – så kallad scene recognition – det vill säga, en maskininlärningsmetod där man försöker upptäcka olika typer av miljöer som avbildas i visuell data. I vårt fall består denna data av fotografier tagna i Sverige under 1930-talet och som är tillgängliga via DigitaltMuseum. Sådana miljökategoriseringar kan vara så breda som interiörer och exteriörer, men också av mer specifikt slag: stadsmiljöer, lantliga miljöer, hemmiljöer och offentliga miljöer.

När man förbereder visuell data för att träna scenigenkänningsmodeller, tjänar annoteringen syftet att märka upp varje bild som tillhörande en viss kategorier (eller inte). Om en bild taggas med en viss etikett, till exempel interiör, så kommer den att användas när modellen tränas för att upptäcka interiörer i bildmaterialet; och om den inte är taggad med interiör, ja då kommer den inte att användas för detta ändamål. I motsats till proceduren för att träna modeller för objektigenkänning – så kallad object recognition – behöver man inte märka ut några specifika motiv i bilderna. När man tränar en scenigenkänningsmodell är de huvudsakligen relevanta värdena huruvida det är sant eller falskt att en bild tillhör en miljökategori som man vill att modellen ska kunna identifiera.

När vi annoterar bilder för upplärning av en scenigenkänningsmodell, innebär det i praktiken att manuellt och kvalitativt identifiera vilka miljöer som ett antal fotografier föreställer, och tagga bilderna med dessa kategorier. En bild kan tillhöra flera kategorier. Syftet är att de annoterade bilderna ska vara så pass representativa för sina kategorier att en modell ska kunna finna statistiska mönster i dem – för det är nämligen just statistiska mönster som all maskininlärning bygger på. Som i annan statistik måste mängden data vara relativt omfattande för att man ska kunna dra pålitliga slutsatser från den.

Efter att ha utforskat några olika alternativ bestämdes det att vi skulle använda applikationen Doccano för att annotera bilderna i träningsdatasetet för vår scenigenkänningsmodell. Det är ett webbaserat annoteringsverktyg för manuell uppmärkning av bilder. Varje kategori, eller etikett, kan tilldelas ett kortkommando: ett tangenttryck märker bilden med motsvarande etikett, exempelvis ett O för offentligt. När man är klar med att annotera en bild efter alla passande kategorier trycker man på enter för att markera den som färdig, och på höger piltangent för att gå vidare till nästa bild i datasetet. Gränssnittet gör Doccano till ett mycket effektivt verktyg för annotering av stora mängder bilder. Varje användare taggar bilderna individuellt medan de är inloggade på sitt eget konto hos Doccano. Vi bestämde oss för att minst tre användare i projektet måste ha annoterat en bild 100 procent enhälligt för att den ska godkännas för användning i det slutliga träningsdatasetet.

I forskningsgruppen hade man sedan tidigare kommit fram till ett antal initiala kategorier såsom interiör och exteriör. Därutöver fanns kategorierna osäkert och irrelevant, där den förstnämnda används till att märka bilder vars kategorisering man tvekar inför. När jag kom in i projektet påbörjade vi annoteringen i en större skala. Vi beslutade oss då för en metod där vi under arbetets gång spontant försöker identifiera mönster i bilderna. När vi upptäcker ett nytt mönster, formulerar vi det till en kategori som lades till i listan. Vi börjar sedan från datasetets början med att tagga redan kontrollerade bilder med nya, eventuellt relevanta etiketter. Metodens repetitivitet har fördelen att den möjliggör kvalitetskontroll genom att återbesöka tidigare kategoriserade bilder, vilka vid en andra anblick kanske inte självklart borde blivit taggade som det ena, utan istället (eller även) det andra. Denna sekundära prövning av en bild kan – åtminstone idealt – vara färgad av nyförvärvad kunskap från litteraturläsning och/eller exponering för hundra- eller tusentals andra bilder som ibland kan ha givit nya insikter om bildens kontext. På samma sätt får man ett tillfälle att återbesöka bilder i osäkert-kategorin.

Informationshantering av den typ jag beskrivit ovan har jag studerat under DH-programmet. Det betyder dock inte att den grad av kategorisering som krävs av maskininlärning, baserad på fotografier av allsköns mänsklig aktivitet – ofta med ingen eller bristande metadata – är en lätt uppgift. Jag tror att varje historisk kontext har sina skrymslen och vrår som egentligen är omöjliga att kvantifiera, oavsett hur bra källmaterial och genomtänkt forskningsmetod man har. Men så är ju också syftet med Moderna tider 1936 att experimentera och se vad artificiell intelligens kan hjälpa till med. Jag ser väldigt fram emot att få se de första resultaten.

Utöver annotering så har jag ägnat en stor del av min tid åt att läsa in mig på applicering av maskininlärning inom humaniora-forskning. Det är en verklig utmaning för en som med nöd och näppe klarade Matematik B på gymnasiet och kanske ser sig själv som en digital humanist mer än en digital humanist – men meningen med praktik är ju trots allt lärande. Under hösten tänkte jag fortsätta rapportera om mitt lärande här på bloggen.

Visuellt dataset från DigitaltMuseum

Arbetet inom vårt projekt fortskrider och vi har på sista tiden fokuserat mest på fotografiska bilder, närmare bestämt ett större dataset på cirka sjuttiotusen bilder från 1930-talet som återfinns på DigitaltMuseum. Tanken är att dels använda dessa bilder för att testa olika algoritmer för uppskalning – det vill säga, förtätning av pixlar – liksom att undersöka vad mjukvara egentligen ser, och dels att tagga upp delar av bilderna. Till en början med i enkla kategorier som män och kvinnor, därefter med olika typer av objektigenkänning. Modeller kommer sedan att tränas på denna annoterade data. Ambitionen är därefter att använda den för analys av vårt större dataset: hur framträder kön och genus i ett större bildmaterial? Det är utvecklare Mathias Johansson som har huvudansvaret för det tekniska arbetet med det fotografiska materialet, och till vår hjälp har vi under hösten dessutom masterstudent Robert Aspenskog, som studerar digital humaniora vid Göteborgs universitet, som praktikant och forskningsassistent. Robert kommer under hösten att publicera en bloggpost eller två om sitt arbete.

Kungliga bibliotekets wav2vec-modell applicerad på Svensk Filmindustris veckorevyer från 1930-talet

Vårt projekt har så sakta fått lite styrfart – inte minst genom Ester Lagerlöf, statistikstudent vid Uppsala universitet, som under sommaren arbetat som projektassistent. Hennes arbete påbörjades redan under våren, och har handlat om att transkribera svenska ljudfiler från 1930-talet. Så här sammanfattar hon sitt arbete:

Jag har med hjälp av Kungliga bibliotekets wav2vec-modell transkriberat 27 veckorevyer från 1930-talet bestående av cirka tio minuter långa nyhetsreportage med bild och ljud, filmer som är tillgängliga på filmarkivet.se. Modeller för att transkribera ljud till text fungerar olika bra, ett mått är så kallad word error rate – det vill säga hur mycket (eller lite) fel som modellen genererar. Nästan alla ljudfiler fick ett word error rate-värde mellan 12 och 35 procent, med ett medelvärde på cirka 24 procent för varje ljudfil. Jag delade även upp veckorevyerna utifrån dess olika inslag och behandlade dem individuellt. De inslag som var svårast för modellen att transkribera visade sig vara de delar som var live – alltså ute i verkligheten, och inte inspelade i studio. Sådana inslag i veckorevyerna ägde ofta rum utomhus med folkmassor i bakgrunden. Anledningen till att modellen hade svårt för dessa typer av inslag är att ljudupptagning då ofta var sämre i sådan miljöer, att bakgrundsljudet verkar störande samt att mer spontant språk och tal tenderar att förekomma oftare jämfört med förinspelade inslag.

De ord som modellen hade svårast att transkribera var framförallt namn, både för- och efternamn samt namn på städer. Ett inslag i en veckojournal handlade om en hästkapplöpning i England – där hästarna förstås hade namn på engelska. Sådana namn klarade modellen inte av att transkribera alls. Jag har också ägnat mig åt att kategorisera inslagen utifrån i vilken miljö de utspelade sig i, exempelvis stadsmiljö när filminslag utspelades i Stockholm stad. Min tanke var här att undersöka huruvida miljö påverkar word error rate. I min data finns 21 olika miljöer kategoriserades för 121 inslag – men dessvärre hittade jag inget tydligt samband mellan miljö och word error rate. Det kan dock ses som ett positivt resultat eftersom man vid fortsatt transkriberingsarbete inte behöver ta så stor hänsyn till vilken miljö veckorevyerna utspelar sig i.

Transkription av äldre ljudfiler

Vårt projekt har så sakteliga tuffat igång – med hjälp av statistikstudenten Ester Lagerlöf. Hon har skrivit uppsats om transkription av äldre ljudfiler genom olika speech-to-text-modeller på Uppsala universitet och har för projektets räkning gjort en del testkörningar. Framför allt har hon använt Kungliga bibliotekets så kallade wav2vec-modell på ett tiotal ljudfiler – både veckorevyer med ljud från Svensk Filmindustri samt ett par äldre radioprogram. Resultaten är intressanta även om modellen har problem med äldre ljudmaterial, främst när det handlar ljudåtergivning i andra hand (exempelvis inspelade telefonsamtal). Den så kallade word-error-rate är därför relativt hög för denna typ av radio- och filmmaterial. I ett radioinslag från 1938 om där upprörda lyssnare klagade på kvinnliga nyhetsuppläsare – ett inslag som finns på SR:s Radiofynd – så lyckas inte modellen uppfatta ordet Radiotjänst korrekt en enda gång. Arbetet fortsätter.

Projektstart under 2022

Moderna tider 1936 är ett forskningsprojekt i skärningspunkten mellan digital humaniora och mediehistoria finansierat av Riksbankens jubileumsfond. Eftersom projektledare Pelle Snickars under våren 2022 påbörjat en ny tjänst vid Lunds universitet har projektet sin hemvist vid detta lärosäte. Ett samarbete med Humanistlaboratoriet vid Lunds universitet kommer därtill att inledas under året. Till projektet kommer också att knytas en doktorand, förhoppningsvis med utlysning till hösten. Det är också först då som projektet på allvar kommer att sätta fart – mer och uppdaterad information kommer att publiceras här på projektbloggen.