Att annotera bilder

Jag heter Robert Aspenskog och jag har fått förmånen att genomföra forskningspraktik vid projektet Moderna tider 1936 under hösten 2023. Det gör jag som en del av mina studier inom masterprogrammet i digital humaniora vid Göteborgs universitet. Min roll kommer vara att mer eller mindre agera forskningsassistent med allt vad det innebär: bland annat att förbereda data för vidare undersökningar och analyser, bistå i författande av kortare texter till kommande publiceringar och sammanställa litteraturlistor. Därtill kommer jag att ta tillfället i akt att börja förbereda min masteruppsats i digital humaniora som jag ska börja skriva efter årsskiftet. Jag har sedan tidigare en kandidatexamen i historia med kurser från Karlsuniversitetet i Prag och Göteborgs universitet. Parallellt med DH-programmet läser jag kurser för att kunna ta ut en masterexamen även i historia – med det långsiktiga målet att forska inom digital historia.

När jag för drygt två veckor sedan sedan började mitt arbete för Moderna tider 1936 fick jag som första uppgift att annotera några tusen slumpmässiga bilder av de cirka 70 000 digitiserade fotografier som ingår i ett dataset som projektet satt samman. Vårt första steg är att träna upp en scenigenkänningsmodell – så kallad scene recognition – det vill säga, en maskininlärningsmetod där man försöker upptäcka olika typer av miljöer som avbildas i visuell data. I vårt fall består denna data av fotografier tagna i Sverige under 1930-talet och som är tillgängliga via DigitaltMuseum. Sådana miljökategoriseringar kan vara så breda som interiörer och exteriörer, men också av mer specifikt slag: stadsmiljöer, lantliga miljöer, hemmiljöer och offentliga miljöer.

När man förbereder visuell data för att träna scenigenkänningsmodeller, tjänar annoteringen syftet att märka upp varje bild som tillhörande en viss kategorier (eller inte). Om en bild taggas med en viss etikett, till exempel interiör, så kommer den att användas när modellen tränas för att upptäcka interiörer i bildmaterialet; och om den inte är taggad med interiör, ja då kommer den inte att användas för detta ändamål. I motsats till proceduren för att träna modeller för objektigenkänning – så kallad object recognition – behöver man inte märka ut några specifika motiv i bilderna. När man tränar en scenigenkänningsmodell är de huvudsakligen relevanta värdena huruvida det är sant eller falskt att en bild tillhör en miljökategori som man vill att modellen ska kunna identifiera.

När vi annoterar bilder för upplärning av en scenigenkänningsmodell, innebär det i praktiken att manuellt och kvalitativt identifiera vilka miljöer som ett antal fotografier föreställer, och tagga bilderna med dessa kategorier. En bild kan tillhöra flera kategorier. Syftet är att de annoterade bilderna ska vara så pass representativa för sina kategorier att en modell ska kunna finna statistiska mönster i dem – för det är nämligen just statistiska mönster som all maskininlärning bygger på. Som i annan statistik måste mängden data vara relativt omfattande för att man ska kunna dra pålitliga slutsatser från den.

Efter att ha utforskat några olika alternativ bestämdes det att vi skulle använda applikationen Doccano för att annotera bilderna i träningsdatasetet för vår scenigenkänningsmodell. Det är ett webbaserat annoteringsverktyg för manuell uppmärkning av bilder. Varje kategori, eller etikett, kan tilldelas ett kortkommando: ett tangenttryck märker bilden med motsvarande etikett, exempelvis ett O för offentligt. När man är klar med att annotera en bild efter alla passande kategorier trycker man på enter för att markera den som färdig, och på höger piltangent för att gå vidare till nästa bild i datasetet. Gränssnittet gör Doccano till ett mycket effektivt verktyg för annotering av stora mängder bilder. Varje användare taggar bilderna individuellt medan de är inloggade på sitt eget konto hos Doccano. Vi bestämde oss för att minst tre användare i projektet måste ha annoterat en bild 100 procent enhälligt för att den ska godkännas för användning i det slutliga träningsdatasetet.

I forskningsgruppen hade man sedan tidigare kommit fram till ett antal initiala kategorier såsom interiör och exteriör. Därutöver fanns kategorierna osäkert och irrelevant, där den förstnämnda används till att märka bilder vars kategorisering man tvekar inför. När jag kom in i projektet påbörjade vi annoteringen i en större skala. Vi beslutade oss då för en metod där vi under arbetets gång spontant försöker identifiera mönster i bilderna. När vi upptäcker ett nytt mönster, formulerar vi det till en kategori som lades till i listan. Vi börjar sedan från datasetets början med att tagga redan kontrollerade bilder med nya, eventuellt relevanta etiketter. Metodens repetitivitet har fördelen att den möjliggör kvalitetskontroll genom att återbesöka tidigare kategoriserade bilder, vilka vid en andra anblick kanske inte självklart borde blivit taggade som det ena, utan istället (eller även) det andra. Denna sekundära prövning av en bild kan – åtminstone idealt – vara färgad av nyförvärvad kunskap från litteraturläsning och/eller exponering för hundra- eller tusentals andra bilder som ibland kan ha givit nya insikter om bildens kontext. På samma sätt får man ett tillfälle att återbesöka bilder i osäkert-kategorin.

Informationshantering av den typ jag beskrivit ovan har jag studerat under DH-programmet. Det betyder dock inte att den grad av kategorisering som krävs av maskininlärning, baserad på fotografier av allsköns mänsklig aktivitet – ofta med ingen eller bristande metadata – är en lätt uppgift. Jag tror att varje historisk kontext har sina skrymslen och vrår som egentligen är omöjliga att kvantifiera, oavsett hur bra källmaterial och genomtänkt forskningsmetod man har. Men så är ju också syftet med Moderna tider 1936 att experimentera och se vad artificiell intelligens kan hjälpa till med. Jag ser väldigt fram emot att få se de första resultaten.

Utöver annotering så har jag ägnat en stor del av min tid åt att läsa in mig på applicering av maskininlärning inom humaniora-forskning. Det är en verklig utmaning för en som med nöd och näppe klarade Matematik B på gymnasiet och kanske ser sig själv som en digital humanist mer än en digital humanist – men meningen med praktik är ju trots allt lärande. Under hösten tänkte jag fortsätta rapportera om mitt lärande här på bloggen.