Workshop Social Hotspots

META Nummer 2022/8

Workshop Social Hotspots

Geschreven door Harald Deceulaer
Gepubliceerd op 13.12.2022
IMPORTANT
Lezing Harald Deceulaer (Rijksarchief Brussel). © Bart Boon.

De archiefwereld staat aan de vooravond van een revolutie. Op basis van eeuwenoude archieven wordt de aanzet gegeven voor een nieuwe onderzoeksinfrastructuur. Archieven digitaliseren natuurlijk al langer documenten, maar dat blijven doorgaans digitale afbeeldingen. Je kunt ze meestal niet doorzoeken met zoektermen, zoals dat wel kan met gedigitaliseerde boeken waarop optical character recognition (OCR) toegepast is.

Om die massa gegevens doorzoekbaar te maken, experimenteren archieven met twee complementaire methoden. Enerzijds worden documenten gescand en op digitale platformen gezet, waarna vrijwilligers deze manueel transcriberen. Anderzijds wordt ingezet op automatische herkenning van handgeschreven teksten met artificiële intelligentie (AI), zodat deze automatisch omgezet kunnen worden naar doorzoekbare tekst (het programma Transkribus is het bekendste voorbeeld). Doel is om een soort OCR te ontwikkelen voor handschriften, zoals dat bestaat voor boeken. Gebruikers moeten in principe eerst zelf een groot aantal pagina’s manueel transcriberen om een model te maken.

Op 16 september verzamelden onderzoekers in het Algemeen Rijksarchief voor een workshop. Aanleiding was het afsluiten van het project Social Hotspots: procesdossiers als bronnen voor de geschiedenis van de vroegmoderne Nederlanden (Vrije Universiteit Brussel (VUB), Université catholique de Louvain (UCL) en Rijksarchief). Het project leidde tot drie nieuwe archiefinventarissen, een proefschrift over de gevangenissen in Brussel in de 18de eeuw en een databank over meer dan 4.000 gevangenen in de 18de eeuw. Wouter Ryckbosch (VUB) stelde het Getuigenissen-project voor. Getuigenissen uit juridische bronnen geven rijke informatie over het dagelijkse leven; niet alleen over de misdaad zelf, maar ook over bijvoorbeeld werk of vrije tijd, ook van personen die soms weinig andere bronnen nalieten. Uit het archief in Brugge werden scans van getuigenissen uit 18de- en 19deeeuwse gerechtsdossiers online geplaatst, die getranscribeerd werden door vrijwilligers. Hierdoor kwamen ze tot een model waarmee deze teksten doorzoekbaar worden, met een foutenmarge van vijf procent. Ook werden persoonsnamen, plaatsnamen en beroepen aangeduid, werd geolokalisatie toegevoegd én werden data gekoppeld van volkstellingen en belastingkohieren. Hierdoor wordt het mogelijk om complexe patronen te onderzoeken.

IMPORTANT
Foto: Lezing Hylkje de Jong (Vrije Universiteit Amsterdam). © Bart Boon.

Een vergelijkbare methode staat centraal in het Pardons-project, voorgesteld door Gert Gielis (Rijksarchief). Doel is om gratiebrieven uit de 16de en 17de eeuw, waarmee daders van (meestal) doodslag gratie vroegen aan de vorst, te ontsluiten. In het project werd opnieuw een platform met vrijwilligers opgezet die teksten transcriberen, om een model van tekstherkenning te bouwen voor de 16de eeuw.

Sterk complementair is het FED-tWIN-project over de ontsluiting van de Raad van Brabant (15de-18de eeuw), uitgevoerd door Klaas Van Gelder (Rijksarchief, VUB). Naast basisontsluiting van procesdossiers en onderzoek, wil dat project de vonnisboeken van de Raad van Brabant digitaal ontsluiten. Deze zijn beschikbaar op de website van het Rijksarchief. Dit project gebruikt een model van tekstherkenning voor de 17de eeuw, dat idealiter samen gebruikt kan worden met het 16de-eeuwse Pardons-model.

Hylkje de Jong (Vrije Universiteit Amsterdam) wil 18de-eeuwse procesbundels uit Friesland, Holland en Utrecht onderzoeken wat betreft het gebruik van rechtsbronnen. Ook hier worden AI en netwerkanalyse gebruikt. Matthias van Rossum (Internationaal Instituut voor Sociale Geschiedenis, Amsterdam) leidt het GLOBALISE-project dat onderzoeksinfrastructuur wil bouwen op basis van het archief van de Verenigde Oostindische Compagnie (VOC) uit de 17de en 18de eeuw. Doel is om de koloniale geschiedenis van Nederland en actoren en stemmen uit andere delen van de wereld voor het voetlicht te plaatsen. Semantische technologie, tekstherkenning en historische contextualisering moeten dat archief onderzoekbaar maken. Twee modellen van AI-tekstherkenning worden gebruikt (het ijsbergmodel van het Nationaal Archief en een eigen pipelinemodel).

Conclusie: work in progress! Er bestaat geen mirakeloplossing waarbij even een doorzoekbaar corpus getoverd wordt. Het basiswerk blijft een conditio sine qua non: als archief niet eerst geïnventariseerd, ontstoft, gevlakt en verpakt wordt, is een nadere digitale ontsluiting onmogelijk. Maar de nieuwe methoden maken gesofisticeerder onderzoek mogelijk en kunnen verbanden leggen die klassieke archiefinventarissen ver overstijgen. Zeker het automatisch toekennen van metadata is veelbelovend. Samenwerking is aangewezen, zowel tussen archieven en universiteiten als tussen archieven onderling. Burgerwetenschap is ook een sleutel tot een rijke publiekswerking waar plaats is voor complexiteit en nuance, niet alleen voor sappige verhalen en sensatie. Dat alles draagt bij tot een ruimere reflectie over de plaats en de grenzen van het archief in de maatschappij en zijn relatie tot het publiek.

Waarom lid van de VVBAD worden?

  • Deel zijn van het netwerk van experten en collega's
  • Mee de belangen van de informatiesector behartigen
  • Korting krijgen op de activiteiten van de VVBAD
  • Toegang krijgen tot vakinformatie
  • Participeren in de verenigingsbesturen
Word lid

VVBAD maakt gebruik van cookies om uw gebruikservaring te optimaliseren. Door deze te accepteren of door gebruik te blijven maken van deze website, gaat u akkoord met het plaatsen van deze cookies. Wil u meer weten over cookies, of uw cookie-instellingen voor deze website aanpassen? Bekijk dan hier de voorwaarden.

© Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw
Statiestraat 179 | B-2600 Berchem (Antwerpen)
Tel: (+32) 03 281 44 57 | email: vvbad@vvbad.be