Projektsammanfattning

I detta projekt har vi undersökt hur Handwritten Text Recognition (HTR) kan användas inom Riksarkivet för att tillgängliggöra arkivmaterial på nya sätt, med fokus på textinnehållet. Framför allt har vi skapat en HTR-modell som maskinellt tolkar handskriven text från andra hälften av 1800-talet. Modell bygger på Detektiva polisens rapportböcker från Göteborg från 1868–1902. Hela arkivserien om 36 volymer ingår om 22 500 textsidor. Av dessa har 940 sidor (165 060 ord) transkriberats manuellt. Denna del utgör "Ground Truth" i HTR-modellen som automatiskt har tolkat de övriga sidorna med en felprocent (character error rate) om 2,7 procent. Detta betyder att modellen tolkar texten för ett helt arkiv korrekt till 97 procent. HTR-modellen (Gothenburg_police_reports_1868-1902) är publicerad och fritt tillgänglig via applikationen Transkribus.

För söksida och uppdateringar, se sok.riksarkivet.se/htr.

Syfte och bakgrund

Idag finns miljontals med bilder på digitaliserade handskrivna arkivmaterial. Men det digitala materialet kommer sannolikt inte att främja ny forskning och kunskap om inte innehållet transkriberas. För tryckt material finns det automatiserade processer s.k. Optical Character Recognition (OCR) som möjliggör produktion av maskinläsbar text i anslutning till digitaliseringsprocessen. För handskrivet källmaterial saknas utvecklade metoder för storskalig och automatiserad transkribering. Möjligheten till fördjupning, jämförelser och större bearbetningar (data-driven forskning) på handskrivna material är därför begränsad. Inom fältet bildigenkänning och maskininlärning har det dock under senare år utvecklats tekniker som möjliggör automatiserad handskriftstolkning, vanligen benämnt Handwritten Text Recognition (HTR). Kulturarvsintuitionerna i Sverige saknar idag resurser och kompetenser för att utveckla egna sådana tekniker och behöver samarbeta med andra aktörer för att komma vidare. Detta projekt går ut på att pröva och utvärdera hur tekniker inom fältet HTR kan användas mot handskrivna arkivmaterial inom Riksarkivet. Projektet kommer att utföras i nära samarbete med organisationen READ-COOP SCE som ansvarar för den AI-teknik som projektet kommer att nyttja.

Mål

Projektet har två mål: För det första, att skapa träningsdata och modeller med tekniken Handwritten Text Recognition (HTR). För det andra, att utveckla en prototyp för hur maskinellt tolkade texter kan tillgängliggöras för användare via Riksarkivets webbtjänster.

Förväntade effekter och resultat

En stor mängd handskrivna dokument blir tillgängliga och sökbara för forskningen och allmänheten på ett mer innehållsrikt och avancerat sätt än idag. Detta öppnar för storskaliga textanalyser. Samband och sammanhang som tidigare gått forskningen förbi kan upptäckas. Arkivanvändningen breddas och fördjupas, och ärendehandläggningen effektiviseras. Målsättningen är att integrera HTR i Riksarkivets digitaliseringsprocess. Ett vidare mål är att få erfarenheter om hur crowdsourcing och HTR kan kombineras.

Planerat upplägg och genomförande

Projektet genomförs i två steg: Först skapas träningsdata och HTR-modeller som sedan genererar översatta texter. Därefter utvecklas en webbtjänst (demo) som tillhandahåller bilder, texter och tillhörande information. HTR-modellerna kommer att skapas i plattformen Transkribus. Detta innebär manuell transkribering, segmentering och annan databehandling. De färdiga filerna överförs sedan till Riksarkivets publika söksystem, som anpassas för att kunna hantera den nya informationen.

Om projektet

Projektet pågår under 2020–2021 med stöd från Vinnova inom satsningen Starta er AI-resa!

För vidare information, kontakta projektledare Olof Karsvall. olof.karsvall[at]riksarkivet.se, 010-476 71 86.

I anslutning till projektet sker en satsning på Citizen Science, där medborgare bjudits in för att delta genom att transkribera och skapa träningsdata. Detta sker i samarbete med GPS400 – Centrum för visuell samverkande forskning vid Göteborgs universitet som finansierat skanningen av polisrapporter från Detektiva polisen i Göteborg 1868-1902 som kommer att HTR-tolkas inom projektet.

Vinnova Dnr 2020-00248, Riksarkivet Dnr RA-KS 2021/00359.

Se även:
Släkthistoriskt Forum nr 2 2021 - Handskrifter maskintolkas i nytt RA-projekt, 2021-04-16
AI och medborgarforskning öppnar upp arkiven - Riksarkivets inspirationsfilm om HTR och medborgarforskning, 2021-04-07
Volontärer tyder gamla polisrapporter - Forskning & Framsteg, 2021-04-01
Ai tränas för att läsa gammal handskrift - Ny Teknik, 2021-03-02
AI och medborgarforskning skapar nya förutsättningar att studera Göteborgs historia, 2021-02-01
Ny teknik transkriberar handskrivna dokument - P1 Släktband P1, 2021-01-29
Innovationsveckan - Från handskrift till maskinläsbara data, 2020-10-05
Flera framsteg för avkodning av text i handskrivna material - workshop på Riksarkivet 2019

Ansvarig för sidan/kontakt 
Olof Karsvall