Het transcriberen en annoteren van oorlogsbrieven. Hoe kan het ons helpen en wat gaat er verloren?
Oorlogsbrieven van de Kleinrock familie
Als onderdeel van het vak Research Seminar worden studenten van de onderzoeksmaster Geschiedenis aan de Universiteit Utrecht verdeeld over een aantal onderzoeksprojecten uit de praktijk met als doel om de studenten een kijkje in de keuken van historisch onderzoek te geven. Ik sloot aan bij het NIOD project en ging aan de slag met een collectie van 26 oorlogsbrieven, allemaal geadresseerd aan leden van de Kleinrock familie. Deze Joodse familie woonde ten tijde van de Tweede Wereldoorlog in Wenen, Oostenrijk. De familie werd door de nazi’s opgepakt en naar verschillende werk- en concentratiekampen in Europa getransporteerd. Niemand van hen heeft de oorlog overleefd.
Hoe kan dit tragische verhaal, vastgelegd in de 26 brieven, worden vertaald naar data? Kunnen 'gedataficeerde' versies van deze brieven iets toevoegen aan historisch onderzoek en zijn er elementen die verloren gaan tijdens het proces? Dit zijn de vragen waar ik mee aan de slag ben gegaan.
Transcriberen en annoteren
Dataficering is het omzetten van ongestructureerde tekst, zoals brieven, naar gestructureerde data. We brengen structuur aan door bijvoorbeeld informatie over de schrijver, of de datum en plaats van schrijven vast te stellen (annoteren) in de brief. Hiermee worden de gedigitaliseerde archiefstukken geschikt voor data-analyse met de computer en zijn ze beter vindbaar en doorzoekbaar voor onderzoekers. De twee stappen die ik heb doorlopen om de brieven te dataficeren zijn het transcriberen van de brieven en vervolgens het annoteren met structurele en tekstuele metadata met behulp van Transkribus.
Transkribus is software, ontwikkeld door de Universiteit van Innsbruck, die door middel van artificial intelligence en handwritten text recognition historische documenten (geschreven of getypt) kan lezen en automatisch kan transcriberen.
Naast automatisch transcriberen, kun je met Transkribus historische documenten ook voorzien van annotaties door structurele en tekstuele metadata toe te voegen. Metadata wordt vaak omschreven als data over data. Het beschrijft de eigenschappen van een bepaald document. Oorlogsbrieven bevatten bijvoorbeeld vaak een datum, afschrift en aanhef en zijn onderverdeeld in een aantal paragrafen. Ze volgen en omschrijven een bepaalde structuur. Dit noemen we dan ook structurele metadata.
Je kunt ook bepaalde termen en woorden in de tekst zelf als metadata beschouwen. Tekstuele metadata beschrijft de semantische eigenschappen van een tekst. Binnen de context van het oorlogsbrieven project zijn bijvoorbeeld persoonsnamen, plaatsnamen en familienamen belangrijke termen die vaak in de brieven worden vermeld. Maar denk ook aan onderstreepte of schuingedrukte woorden. Dit zijn allemaal eigenschappen van de tekst die ertoe doen en kunnen worden geannoteerd.
Toegevoegde waarde?
Wat kan dataficering van oorlogsbrieven, en in het bijzonder de Kleinrock brievencollectie, ons brengen? Welke elementen gaan verloren in het proces en welke verborgen structuren worden onthuld?
Allereerst heb ik een model gemaakt van de structurele en tekstuele annotaties die ik heb gebruikt voor alle 26 oorlogsbrieven. Dit ‘metamodel’ kan potentieel functioneren als een gecontroleerd vocabulaire en worden toegepast op andere oorlogsbrievencollecties om deze beter te ontsluiten en omschrijven.
Verder kan een gedataficeerde versie van de Kleinrock oorlogsbrieven een startpunt vormen voor verder onderzoek. Via annotaties en metadata tags zijn elementen zoals plaatsnamen, datums en personen vastgelegd in bijvoorbeeld Excel en XML-bestanden. Deze bestanden kunnen worden gebruikt om visualisaties te maken van de weg die de verschillende leden van de Kleinrock familie hebben afgelegd tijdens de oorlog. Welk lid van de Kleinrock familie was waar en wanneer? Ook kunnen tekstuele tags zoals persoonsnamen en namen van organisaties worden gebruikt om het verhaal van de Kleinrock familie te linken aan andere oorlogsbronnen en collecties, waardoor het een onderdeel wordt van een grotere overkoepelende geschiedenis.
Er gaan echter ook veel elementen verloren tijdens het dataficatie-proces. Het is bijvoorbeeld niet mogelijk om de volledige tekst en context van de brieven te reconstrueren met enkel en alleen de metadata. Elementen van bijvoorbeeld zinsopbouw, toon en emotionele ladingen van de tekst gaan potentieel verloren. Maar denk ook aan het materiaal waarop een brief is geschreven, de textuur van het papier en de geur van het document; dit ontbreek bij de gedataficeerde brief.
Dataficatie van historische documenten heeft grote potentie maar is niet de heilige graal. Kwantitatieve onderzoeksmethodes kunnen verborgen structuren en links blootleggen, maar kwalitatieve methodes zoals discourse analysis en close reading geven vervolgens betekenis aan deze structuren en links. Het een sluit het ander echter niet uit. De rijkste historische interpretaties komen voort uit een combinatie van beiden.