Under det senaste halvåret har Moderna tider 1936 presenterat lite olika delar av vår pågående forskning på tre konferenser. Först var vi på DHNB 2024 i myggfria Reykjavík i slutet av maj, där vi hade turen att se ett vulkanutbrott på en mils håll. Sedan delade vi upp oss och presenterade på både eKulturseminariet i Stockholm och på ECREA i Ljubljana samma vecka.
DHNB 2024: AI-genererade visuella stereotyper och annotering av historiska fotografier
I år anordnades Digital Humanities in the Nordic and Baltic Countries (DHNB) i Reykjavík (tema: “From experimentation to experience: Lessons learned from the intersections between digital humanities and cultural heritage”). Moderna tider-presentationen leddes av forskare Maria Eriksson, som följdes av nykomlingarna (första konferenspresentationen) Robert Aspenskog och Mathias Johansson. Maria introducerade projektets grundläggande ramverk, frågeställningar och metoder. Robert delade sina reflektioner kring arbetet med att manuellt annotera tusentals historiska fotografier. Samtidigt som sådant arbete är mycket tidskrävande, så är det också nödvändigt för att kunna träna och utvärdera visuella AI-modeller med uppgifter som objekt- och miljöigenkänning. Robert förde en kritisk diskussion angående tidsåtgång visavi resultat inom ramen för vårt arbete med historiska fotografier. Slutligen presenterade Mathias ett av våra delprojekt där vi undersökt hur den generativa AI-modellen Stable Diffusion visuellt representerar skandinavisk historisk modernitet. Efter en inledande teoretisk introduktion visades ett antal exempel på hur bildmodellen ”ser” och representerar de olika skandinaviska nationerna genom påfallande stereotypiska raster. Publiken fick även se intressanta exempel på hur Stable Diffusion tenderar att ”hallucinera” när den används för bildupplösningsuppskalning. Mathias diskuterade möjliga anledningar till att generativa AI-modeller tenderar att stereotypisera och hallucinera när den ska visualisera historien.
I projektets utforskning av relationen mellan artificiell intelligens och modernitet i Sverige under 1930-talet har vi intresserat oss för hur generativa modeller fungerr och återskapar det förflutna. Sådana modeller har inte bara blivit mer kapabla att syntetisera olika medier (text, bild, ljud och video). De har också blivit alltmer tillgängliga, både genom betaltjänster såsom OpenAI eller Midjourney eller gratis genom repositorier såsom HuggingFace där Alphabet, Meta och Microsoft regelbundet lägger upp tränade modeller för fri användning. Ett problem är dock att man i regel behöver tillgång till grafikkort med ganska kraftiga GPU:er. Man kan ta llama2 som exempel, den släpptes i flera olika storlekar varav vår projektdator klarar av att köra de två minsta (av fyra). Men för att träna om dem behövs GPU:er med mer än dubbelt så mycket VRAM än vad vi har tillgång till. När det gäller bildgenerering finns ett liknande problem, vi kan köra StableDiffusionXL-modellen utan problem och generera två högupplösta bilder per tjugonde sekund – men våra datorer räcker inte till för att träna om dessa modeller på ett historiskt korpus. Vi vet att många av bilderna från den korpus vi arbetar med – insamlade från DigitaltMuseum – redan figurerar i den data StabilityAI använt i träningen av sina StableDiffusion-modeller. Så modellen kan redan reproducera någon form av svenskhet, även om bilder med svensk proveniens utgör en ringa del av träningsmaterialet. Under våren har vi arbetat med att träna om modellen för att den bättre ska kunna skildra 1930-talets Sverige i bild – för att i nästa steg analysera resultat. För att kunna utföra denna omträning – så kallad fine-tuning – av den redan kapabla modellen, har vi ansökt om och fått tillgång till kraftfulla GPU:er vid Alvis-klustret i Göteborg genom NAISS (Natoinal Academic Infrastructure for Super-computing in Sweden). Med hjälp av denna nya datorkraft håller vi idag på med att träna om modeller på vårt insamlade material från 1930-talet – för att framgent generera en sorts syntetisk mediehistoria.
En hel del av det mediematerial som vi arbetar med i vårt forskningsprojekt består av fotografiskt material. Vi har därför skapat ett konto på fotoplattformen Flickr, som i nuläget består av tre album. I albumet The Swedish History that Never Was visas några exempel på när vi använt generativa bildmodeller för att skapa fotografier som vore de tagna i Sverige under 1930-talet. Oaktat bildernas tekniska och estetiska kvaliteter, säger resultaten någonting om hur generativ AI läser historiskt källmaterial. En kuslig bild på en ung pojke i militäruniform beror sannolikt på att AI-modellen genererat honom eftersom en betydande del av alla fotografier från Sverige under 1930-talet är tagna i militära miljöer. Det andra albumet, Reinventing the Wheel, innehåller arbetsunderlag från när vi använt objektigenkänningsmodeller för att hitta bilder som innehåller hjul av olika slag. Denna förhistoriska uppfinning framstår som en något paradoxal symbol för och element av svensk modernitet. I det tredje albumet, Super Resolution Fantasies, visas några resultat från våra försök att skala upp bilder med hjälp av AI-modeller – så kallad upscaling. Ett syfte med uppskalningsprojektet var att se vilken effekt som artificiell ökning av bildupplösning hade på precisionen hos objektigenkänningsmodeller. Vi märkte dock snabbt att uppskalningsmodeller skapade förvrängda och påhittade motiv i fotografierna. Modeller som egentligen enkom ska öka bilders upplösning blev i någon mån kreativa aktörer – med egen fantasi.
”Following a boom of user-friendly artificial intelligence tools in recent years, AI-enhanced (or manipulated) films have been framed as a serious threat to film archives. Film archivists are usually conservative; following their métier they are in the business of safeguarding film heritage. Today, however, the film archive – understood in a wide sense – is also elsewhere, most prominently online. The purpose of this article is to trace and critically evaluate how AI artists use algorithmic upscaling to modify early cinema, more particularly surviving films of the film company Swedish Biograph, and how fragments of this company’s cinematic past circulate online today. Drawing on a collaboration with Swedish AI-artist ColorByCarl, we study the procedures within the AI enhancement community behind the scenes. In doing so, we highlight AI’s potential to encourage reuse, remix and rediscovery of our filmic past.”
Jag heter Robert Aspenskog och jag har fått förmånen att genomföra forskningspraktik vid projektet Moderna tider 1936 under hösten 2023. Det gör jag som en del av mina studier inom masterprogrammet i digital humaniora vid Göteborgs universitet. Min roll kommer vara att mer eller mindre agera forskningsassistent med allt vad det innebär: bland annat att förbereda data för vidare undersökningar och analyser, bistå i författande av kortare texter till kommande publiceringar och sammanställa litteraturlistor. Därtill kommer jag att ta tillfället i akt att börja förbereda min masteruppsats i digital humaniora som jag ska börja skriva efter årsskiftet. Jag har sedan tidigare en kandidatexamen i historia med kurser från Karlsuniversitetet i Prag och Göteborgs universitet. Parallellt med DH-programmet läser jag kurser för att kunna ta ut en masterexamen även i historia – med det långsiktiga målet att forska inom digital historia.
När jag för drygt två veckor sedan sedan började mitt arbete för Moderna tider 1936 fick jag som första uppgift att annotera några tusen slumpmässiga bilder av de cirka 70 000 digitiserade fotografier som ingår i ett dataset som projektet satt samman. Vårt första steg är att träna upp en scenigenkänningsmodell – så kallad scene recognition – det vill säga, en maskininlärningsmetod där man försöker upptäcka olika typer av miljöer som avbildas i visuell data. I vårt fall består denna data av fotografier tagna i Sverige under 1930-talet och som är tillgängliga via DigitaltMuseum. Sådana miljökategoriseringar kan vara så breda som interiörer och exteriörer, men också av mer specifikt slag: stadsmiljöer, lantliga miljöer, hemmiljöer och offentliga miljöer.
När man förbereder visuell data för att träna scenigenkänningsmodeller, tjänar annoteringen syftet att märka upp varje bild som tillhörande en viss kategorier (eller inte). Om en bild taggas med en viss etikett, till exempel interiör, så kommer den att användas när modellen tränas för att upptäcka interiörer i bildmaterialet; och om den inte är taggad med interiör, ja då kommer den inte att användas för detta ändamål. I motsats till proceduren för att träna modeller för objektigenkänning – så kallad object recognition – behöver man inte märka ut några specifika motiv i bilderna. När man tränar en scenigenkänningsmodell är de huvudsakligen relevanta värdena huruvida det är sant eller falskt att en bild tillhör en miljökategori som man vill att modellen ska kunna identifiera.
När vi annoterar bilder för upplärning av en scenigenkänningsmodell, innebär det i praktiken att manuellt och kvalitativt identifiera vilka miljöer som ett antal fotografier föreställer, och tagga bilderna med dessa kategorier. En bild kan tillhöra flera kategorier. Syftet är att de annoterade bilderna ska vara så pass representativa för sina kategorier att en modell ska kunna finna statistiska mönster i dem – för det är nämligen just statistiska mönster som all maskininlärning bygger på. Som i annan statistik måste mängden data vara relativt omfattande för att man ska kunna dra pålitliga slutsatser från den.
Efter att ha utforskat några olika alternativ bestämdes det att vi skulle använda applikationen Doccano för att annotera bilderna i träningsdatasetet för vår scenigenkänningsmodell. Det är ett webbaserat annoteringsverktyg för manuell uppmärkning av bilder. Varje kategori, eller etikett, kan tilldelas ett kortkommando: ett tangenttryck märker bilden med motsvarande etikett, exempelvis ett O för offentligt. När man är klar med att annotera en bild efter alla passande kategorier trycker man på enter för att markera den som färdig, och på höger piltangent för att gå vidare till nästa bild i datasetet. Gränssnittet gör Doccano till ett mycket effektivt verktyg för annotering av stora mängder bilder. Varje användare taggar bilderna individuellt medan de är inloggade på sitt eget konto hos Doccano. Vi bestämde oss för att minst tre användare i projektet måste ha annoterat en bild 100 procent enhälligt för att den ska godkännas för användning i det slutliga träningsdatasetet.
I forskningsgruppen hade man sedan tidigare kommit fram till ett antal initiala kategorier såsom interiör och exteriör. Därutöver fanns kategorierna osäkert och irrelevant, där den förstnämnda används till att märka bilder vars kategorisering man tvekar inför. När jag kom in i projektet påbörjade vi annoteringen i en större skala. Vi beslutade oss då för en metod där vi under arbetets gång spontant försöker identifiera mönster i bilderna. När vi upptäcker ett nytt mönster, formulerar vi det till en kategori som lades till i listan. Vi börjar sedan från datasetets början med att tagga redan kontrollerade bilder med nya, eventuellt relevanta etiketter. Metodens repetitivitet har fördelen att den möjliggör kvalitetskontroll genom att återbesöka tidigare kategoriserade bilder, vilka vid en andra anblick kanske inte självklart borde blivit taggade som det ena, utan istället (eller även) det andra. Denna sekundära prövning av en bild kan – åtminstone idealt – vara färgad av nyförvärvad kunskap från litteraturläsning och/eller exponering för hundra- eller tusentals andra bilder som ibland kan ha givit nya insikter om bildens kontext. På samma sätt får man ett tillfälle att återbesöka bilder i osäkert-kategorin.
Informationshantering av den typ jag beskrivit ovan har jag studerat under DH-programmet. Det betyder dock inte att den grad av kategorisering som krävs av maskininlärning, baserad på fotografier av allsköns mänsklig aktivitet – ofta med ingen eller bristande metadata – är en lätt uppgift. Jag tror att varje historisk kontext har sina skrymslen och vrår som egentligen är omöjliga att kvantifiera, oavsett hur bra källmaterial och genomtänkt forskningsmetod man har. Men så är ju också syftet med Moderna tider 1936 att experimentera och se vad artificiell intelligens kan hjälpa till med. Jag ser väldigt fram emot att få se de första resultaten.
Utöver annotering så har jag ägnat en stor del av min tid åt att läsa in mig på applicering av maskininlärning inom humaniora-forskning. Det är en verklig utmaning för en som med nöd och näppe klarade Matematik B på gymnasiet och kanske ser sig själv som en digital humanist mer än en digital humanist – men meningen med praktik är ju trots allt lärande. Under hösten tänkte jag fortsätta rapportera om mitt lärande här på bloggen.
Arbetet inom vårt projekt fortskrider och vi har på sista tiden fokuserat mest på fotografiska bilder, närmare bestämt ett större dataset på cirka sjuttiotusen bilder från 1930-talet som återfinns på DigitaltMuseum. Tanken är att dels använda dessa bilder för att testa olika algoritmer för uppskalning – det vill säga, förtätning av pixlar – liksom att undersöka vad mjukvara egentligen ser, och dels att tagga upp delar av bilderna. Till en början med i enkla kategorier som män och kvinnor, därefter med olika typer av objektigenkänning. Modeller kommer sedan att tränas på denna annoterade data. Ambitionen är därefter att använda den för analys av vårt större dataset: hur framträder kön och genus i ett större bildmaterial? Det är utvecklare Mathias Johansson som har huvudansvaret för det tekniska arbetet med det fotografiska materialet, och till vår hjälp har vi under hösten dessutom masterstudent Robert Aspenskog, som studerar digital humaniora vid Göteborgs universitet, som praktikant och forskningsassistent. Robert kommer under hösten att publicera en bloggpost eller två om sitt arbete.
Vårt projekt har så sakta fått lite styrfart – inte minst genom Ester Lagerlöf, statistikstudent vid Uppsala universitet, som under sommaren arbetat som projektassistent. Hennes arbete påbörjades redan under våren, och har handlat om att transkribera svenska ljudfiler från 1930-talet. Så här sammanfattar hon sitt arbete:
Jag har med hjälp av Kungliga bibliotekets wav2vec-modell transkriberat 27 veckorevyer från 1930-talet bestående av cirka tio minuter långa nyhetsreportage med bild och ljud, filmer som är tillgängliga på filmarkivet.se. Modeller för att transkribera ljud till text fungerar olika bra, ett mått är så kallad word error rate – det vill säga hur mycket (eller lite) fel som modellen genererar. Nästan alla ljudfiler fick ett word error rate-värde mellan 12 och 35 procent, med ett medelvärde på cirka 24 procent för varje ljudfil. Jag delade även upp veckorevyerna utifrån dess olika inslag och behandlade dem individuellt. De inslag som var svårast för modellen att transkribera visade sig vara de delar som var live – alltså ute i verkligheten, och inte inspelade i studio. Sådana inslag i veckorevyerna ägde ofta rum utomhus med folkmassor i bakgrunden. Anledningen till att modellen hade svårt för dessa typer av inslag är att ljudupptagning då ofta var sämre i sådan miljöer, att bakgrundsljudet verkar störande samt att mer spontant språk och tal tenderar att förekomma oftare jämfört med förinspelade inslag.
De ord som modellen hade svårast att transkribera var framförallt namn, både för- och efternamn samt namn på städer. Ett inslag i en veckojournal handlade om en hästkapplöpning i England – där hästarna förstås hade namn på engelska. Sådana namn klarade modellen inte av att transkribera alls. Jag har också ägnat mig åt att kategorisera inslagen utifrån i vilken miljö de utspelade sig i, exempelvis stadsmiljö när filminslag utspelades i Stockholm stad. Min tanke var här att undersöka huruvida miljö påverkar word error rate. I min data finns 21 olika miljöer kategoriserades för 121 inslag – men dessvärre hittade jag inget tydligt samband mellan miljö och word error rate. Det kan dock ses som ett positivt resultat eftersom man vid fortsatt transkriberingsarbete inte behöver ta så stor hänsyn till vilken miljö veckorevyerna utspelar sig i.
Vårt projekt har så sakteliga tuffat igång – med hjälp av statistikstudenten Ester Lagerlöf. Hon har skrivit uppsats om transkription av äldre ljudfiler genom olika speech-to-text-modeller på Uppsala universitet och har för projektets räkning gjort en del testkörningar. Framför allt har hon använt Kungliga bibliotekets så kallade wav2vec-modell på ett tiotal ljudfiler – både veckorevyer med ljud från Svensk Filmindustri samt ett par äldre radioprogram. Resultaten är intressanta även om modellen har problem med äldre ljudmaterial, främst när det handlar ljudåtergivning i andra hand (exempelvis inspelade telefonsamtal). Den så kallade word-error-rate är därför relativt hög för denna typ av radio- och filmmaterial. I ett radioinslag från 1938 om där upprörda lyssnare klagade på kvinnliga nyhetsuppläsare – ett inslag som finns på SR:s Radiofynd – så lyckas inte modellen uppfatta ordet Radiotjänst korrekt en enda gång. Arbetet fortsätter.
Moderna tider 1936 är ett forskningsprojekt i skärningspunkten mellan digital humaniora och mediehistoria finansierat av Riksbankens jubileumsfond. Eftersom projektledare Pelle Snickars under våren 2022 påbörjat en ny tjänst vid Lunds universitet har projektet sin hemvist vid detta lärosäte. Ett samarbete med Humanistlaboratoriet vid Lunds universitet kommer därtill att inledas under året. Till projektet kommer också att knytas en doktorand, förhoppningsvis med utlysning till hösten. Det är också först då som projektet på allvar kommer att sätta fart – mer och uppdaterad information kommer att publiceras här på projektbloggen.