Introductie: Oorlogsbrieven en de campagneweek ‘Postbus NIOD’
Het belang van deze stukken werd in 1944 door Minister van Onderwijs, Kunsten en Wetenschappen Gerrit Bolkestein vanuit Londen al benadrukt: ‘Wil het nageslacht ten volle beseffen wat wij als volk in deze jaren hebben doorstaan [...], dan hebben wij juist de eenvoudige stukken nodig: een dagboek, brieven van een arbeider uit Duitsland, [...] ’. Het NIOD is nooit opgehouden deze documenten te verzamelen – en gaat hier mee door tot op de dag van vandaag.
Persoonlijke documenten, ook wel ‘egodocumenten’ genoemd, vormen een belangrijk onderdeel van de NIOD-collectie en zijn om verschillende redenen belangrijk voor historici en andere geïnteresseerden. Oorlogsbrieven vormen een vrij directe weerslag van de persoonlijke communicatie tussen briefschrijver en -ontvanger. Brieven laten zien hoe tijdgenoten in tekst vormgaven aan hun emoties, ervaringen en verwachtingen, en niet hoe ze later - toen de loop van de geschiedenis al bekend was - tot een verhaal gemaakt zijn. Waar bijvoorbeeld ooggetuigenverslagen in interviews uit de jaren tachtig en negentig vooral de stem laten horen van de mensen die tijdens de oorlog relatief jong waren, zijn brieven ook afkomstig van bijvoorbeeld oudere mensen of mensen die de oorlog niet hebben kunnen navertellen. Het belang van historische oorlogsbrieven werd eind 2022 nog eens extra benadrukt, toen de collectie oorlogsbrieven van het NIOD, samen met de dagboekencollectie, werd opgenomen in het Nederlandse UNESCO 'Memory of the World'-register.
Het belang van digitalisering
Het NIOD verzamelt en bewaart de brieven niet alleen, maar digitaliseert ze ook. In ‘Oorlog uit Eerste Hand’ wordt hard gewerkt om deze collectie te conserveren, te scannen,te transcriberen en digitaal aan te bieden. Een eerste belangrijke reden dit te doen, is dat digitalisering de toegang tot de oorlogsbrieven vergemakkelijkt. Dit betekent dat de brieven niet langer alleen geraadpleegd kunnen worden in de NIOD-studiezaal, maar ook, waar wetgeving dit toelaat, online doorzocht en gelezen kunnen worden. Dit kan binnenkort via de NIOD-website, via Archieven.nl, of via Netwerk Oorlogsbronnen. Via deze online toegangen kan iedereen die dat wil zelf in de brievencollectie zoeken. De gedigitaliseerde en getranscribeerde oorlogsbrieven worden bovendien als dataset voor wetenschappelijk onderzoek beschikbaar gesteld. Dit biedt nieuwe mogelijkheden voor wetenschappelijk historisch onderzoek. De bronnen kunnen dan bijvoorbeeld met de computer systematisch doorzocht en geanalyseerd worden.
Digitalisering is daarnaast belangrijk omdat het een bijdrage levert aan het in stand houden van de oorspronkelijke, vaak kwetsbare historische stukken. Veel brieven zijn, in tijden van papierschaarste, soms op fragiele kladpapiertjes of op repen van een oude theedoek geschreven. Doordat de collectie binnenkort vanaf een scherm geraadpleegd kan worden, zal er minder slijtage optreden aan de oorspronkelijke stukken.
Aan de slag met digitalisering
De afgelopen twee jaar zijn de oorlogsbrieven in de huidige Collectie 247: correspondentie van het NIOD allereerst geconserveerd, waar nodig gerestaureerd en vervolgens gescand. Dit laatste is gedaan door een professioneel scanbedrijf. Nadat de scans terugkwamen van het scanbedrijf zijn we begonnen met de voorbereidingen voor het automatisch transcriberen van de handgeschreven brieven. Dit proces van automatisch transcriberen is ook wel bekend als Handwritten Text Recognition (HTR), en is verwant aan het laten transcriberen van getypte tekst door de computer, ook wel bekend als Optical Character Recognition (OCR). We gebruiken voor het transcriberen van handgeschreven teksten het software-programma Transkribus dat is ontwikkeld door de Oostenrijkse READ-COOP in samenspraak met archivarissen, wetenschappers, historici en IT-specialisten.
We hebben eerst een relatief klein deel van de gedigitaliseerde brieven met de hand overgetypt – al met al zo’n 1000 scans. We hebben hierbij hulp gekregen van enthousiaste vrijwilligers, die naast transcriberen ook actief bijdragen en meedenken met het project. Naast het maken van transcripties werken deze vrijwilligers bijvoorbeeld ook aan het identificeren en annoteren van betekenisvolle elementen in de brieven, zoals de namen van afzender en ontvanger, of de plaats en het moment van schrijven. Hierover in een volgende blog tijdens de campagneweek meer. Met de nagenoeg foutloze transcripties die het handmatig transcriberen heeft opgeleverd, ook wel Ground Truth genoemd, hebben we met softwareprogramma Transkribus een computermodel getraind. Trainen slaat hier op het proces waarbij de computer leert om handgeschreven tekst te herkennen en vervolgens automatisch te transcriberen. Deze computermodellen worden getraind met behulp van technologie voor Artificial Intelligence (AI).
De computer aan het werk
Het is een trial-and-error proces gebleken om tot acceptabele resultaten te komen. De kwaliteit van de automatische transcripties wordt uitgedrukt in een (idealiter zo laag mogelijk) foutpercentage op het niveau van herkende karakters in de tekst (ook wel Character Error Rate (CER) genoemd). Onze ervaring met het trainen en testen van de computermodellen leverde het inzicht op dat tot op een bepaald punt meer brieven en meer variatie in verschillende handschriften een beter bruikbaar computermodel voor automatische transcriptie oplevert. Met ongeveer 1000 Ground Truth transcripten als trainingsmateriaal voor de computer lijken we voorlopig het punt bereikt te hebben waarbij het toevoegen van meer materiaal en meer variatie aan de training van de computer geen significant betere resultaten (lees: lagere CER) meer oplevert.
Het uiteindelijke computermodel dat we hebben getraind op de Ground Truth-set is, naar onze bescheiden mening, behoorlijk goed geworden in het automatisch transcriberen van de scans van handgeschreven Nederlands. De transcripties met het computermodel zijn niet perfect, maar wél goed leesbaar en met de computer prima doorzoekbaar. We hebben nu een foutpercentage (CER) bereikt van 4,7%. Dit wil zeggen dat door de bank genomen 95,3% van de karakters in een handgeschreven tekst correct wordt herkend en getranscribeerd door de computer. Het model kan Nederlandse handschriften uit de periode 1935-1950 goed lezen, herkennen en automatisch transcriberen. We gaan binnenkort dan ook alle reeds gescande oorlogsbrieven automatisch transcriberen met het model.
Het door ons getrainde computermodel is tevens beschikbaar gesteld aan geïnteresseerden, onderzoekers en andere archief- en erfgoedinstellingen zodat zij het kunnen toepassen in het automatisch transcriberen van handgeschreven Nederlands uit het midden van de twintigste eeuw. Een proefversie van het model staat online, en kan door iedereen op eigen scans getest worden.
Campagneweek ‘Postbus NIOD’: doneer uw oorlogsbrieven aan het NIOD
Omdat we geloven dat er nog veel (onbekende) oorlogsbrieven op zolders en in kelders te vinden moeten zijn, roepen we tijdens de campagneweek ‘Postbus NIOD’ (31 maart - 7 april 2023) iedereen op om (persoonlijke) correspondentie over de Duitse bezetting van Nederland tijdens de Tweede Wereldoorlog (1940-1945) en/of de Onafhankelijkheidsoorlog in Indonesië (1945-1950) te doneren aan het NIOD. Heeft u nog brieven, kaarten of briefwisselingen over de bezetting of over deze oorlogen uit de jaren 1935-1950? Overweeg dan eens om deze brieven aan het NIOD-archief te schenken. Via dit schenkingsformulier kunt u uw stukken aanmelden voor ‘Postbus NIOD’. Vink daarvoor het vakje met ‘Postbus NIOD’ aan. Schenkingen die passen binnen ‘Oorlog uit Eerste Hand’ zullen niet alleen zorgvuldig door het NIOD worden bewaard, maar aanmeldingen tijdens de campagne ‘Postbus NIOD’ komen ook in aanmerking voor digitalisering. Indien dit het geval is, krijgt de schenker een hoge kwaliteit digitale kopie met transcriptie ervoor terug.
Tijdens de campagneweek ‘Postbus NIOD’ verschijnt er iedere dag een nieuwe blog over verschillende facetten van het werken met (digitale) oorlogsbrieven. Houdt onze website of sociale mediakanalen daarom goed in de gaten!