De archiefwereld staat aan de vooravond van een revolutie. Op basis van eeuwenoude archieven wordt de aanzet gegeven voor een nieuwe onderzoeksinfrastructuur. Archieven digitaliseren natuurlijk al langer documenten, maar dat blijven doorgaans digitale afbeeldingen. Je kunt ze meestal niet doorzoeken met zoektermen, zoals dat wel kan met gedigitaliseerde boeken waarop optical character recognition (OCR) toegepast is.
Om die massa gegevens doorzoekbaar te maken, experimenteren archieven met twee complementaire methoden. Enerzijds worden documenten gescand en op digitale platformen gezet, waarna vrijwilligers deze manueel transcriberen. Anderzijds wordt ingezet op automatische herkenning van handgeschreven teksten met artificiële intelligentie (AI), zodat deze automatisch omgezet kunnen worden naar doorzoekbare tekst (het programma Transkribus is het bekendste voorbeeld). Doel is om een soort OCR te ontwikkelen voor handschriften, zoals dat bestaat voor boeken. Gebruikers moeten in principe eerst zelf een groot aantal pagina’s manueel transcriberen om een model te maken.
Op 16 september verzamelden onderzoekers in het Algemeen Rijksarchief voor een workshop. Aanleiding was het afsluiten van het project Social Hotspots: procesdossiers als bronnen voor de geschiedenis van de vroegmoderne Nederlanden (Vrije Universiteit Brussel (VUB), Université catholique de Louvain (UCL) en Rijksarchief). Het project leidde tot drie nieuwe archiefinventarissen, een proefschrift over de gevangenissen in Brussel in de 18de eeuw en een databank over meer dan 4.000 gevangenen in de 18de eeuw. Wouter Ryckbosch (VUB) stelde het Getuigenissen-project voor. Getuigenissen uit juridische bronnen geven rijke informatie over het dagelijkse leven; niet alleen over de misdaad zelf, maar ook over bijvoorbeeld werk of vrije tijd, ook van personen die soms weinig andere bronnen nalieten. Uit het archief in Brugge werden scans van getuigenissen uit 18de- en 19deeeuwse gerechtsdossiers online geplaatst, die getranscribeerd werden door vrijwilligers. Hierdoor kwamen ze tot een model waarmee deze teksten doorzoekbaar worden, met een foutenmarge van vijf procent. Ook werden persoonsnamen, plaatsnamen en beroepen aangeduid, werd geolokalisatie toegevoegd én werden data gekoppeld van volkstellingen en belastingkohieren. Hierdoor wordt het mogelijk om complexe patronen te onderzoeken.