Kungliga bibliotekets wav2vec-modell applicerad på Svensk Filmindustris veckorevyer från 1930-talet

Vårt projekt har så sakta fått lite styrfart – inte minst genom Ester Lagerlöf, statistikstudent vid Uppsala universitet, som under sommaren arbetat som projektassistent. Hennes arbete påbörjades redan under våren, och har handlat om att transkribera svenska ljudfiler från 1930-talet. Så här sammanfattar hon sitt arbete:

 

Jag har med hjälp av Kungliga bibliotekets wav2vec-modell transkriberat 27 veckorevyer från 1930-talet bestående av cirka tio minuter långa nyhetsreportage med bild och ljud, filmer som är tillgängliga på filmarkivet.se. Modeller för att transkribera ljud till text fungerar olika bra, ett mått är så kallad word error rate – det vill säga hur mycket (eller lite) fel som modellen genererar. Nästan alla ljudfiler fick ett word error rate-värde mellan 12 och 35 procent, med ett medelvärde på cirka 24 procent för varje ljudfil. Jag delade även upp veckorevyerna utifrån dess olika inslag och behandlade dem individuellt. De inslag som var svårast för modellen att transkribera visade sig vara de delar som var live – alltså ute i verkligheten, och inte inspelade i studio. Sådana inslag i veckorevyerna ägde ofta rum utomhus med folkmassor i bakgrunden. Anledningen till att modellen hade svårt för dessa typer av inslag är att ljudupptagning då ofta var sämre i sådan miljöer, att bakgrundsljudet verkar störande samt att mer spontant språk och tal tenderar att förekomma oftare jämfört med förinspelade inslag.

De ord som modellen hade svårast att transkribera var framförallt namn, både för- och efternamn samt namn på städer. Ett inslag i en veckojournal handlade om  en hästkapplöpning i England – där hästarna förstås hade namn på engelska. Sådana namn klarade modellen inte av att transkribera alls. Jag har också ägnat mig åt att kategorisera inslagen utifrån i vilken miljö de utspelade sig i, exempelvis stadsmiljö när filminslag utspelades i Stockholm stad. Min tanke var här att undersöka huruvida miljö påverkar word error rate. I min data finns 21 olika miljöer kategoriserades för 121 inslag – men dessvärre hittade jag inget tydligt samband mellan miljö och word error rate. Det kan dock ses som ett positivt resultat eftersom man vid fortsatt transkriberingsarbete inte behöver ta så stor hänsyn till vilken miljö veckorevyerna utspelar sig i.