17 maj 2022

Transkription av äldre ljudfiler

Vårt projekt har så sakteliga tuffat igång – med hjälp av statistikstudenten Ester Lagerlöf. Hon har skrivit uppsats om transkription av äldre ljudfiler genom olika speech-to-text-modeller på Uppsala universitet och har för projektets räkning gjort en del testkörningar. Framför allt har hon använt Kungliga bibliotekets så kallade wav2vec-modell på ett tiotal ljudfiler – både veckorevyer med ljud från Svensk Filmindustri samt ett par äldre radioprogram. Resultaten är intressanta även om modellen har problem med äldre ljudmaterial, främst när det handlar ljudåtergivning i andra hand (exempelvis inspelade telefonsamtal). Den så kallade word-error-rate är därför relativt hög för denna typ av radio- och filmmaterial. I ett radioinslag från 1938 om där upprörda lyssnare klagade på kvinnliga nyhetsuppläsare – ett inslag som finns på SR:s Radiofynd – så lyckas inte modellen uppfatta ordet Radiotjänst korrekt en enda gång. Arbetet fortsätter.