Door HTR toe te passen, worden de digitale bestanden machineleesbaar en doorzoekbaar voor bijvoorbeeld computers. Niet alleen kan de tekst doorzocht worden op trefwoorden (keyword search), met behulp van Named Entity Recognition (NER) kunnen nadien termen uit de tekst op een (semi-)automatische wijze gekoppeld worden aan linked open data authorities (bv. thesauri).
Transcribus
Verschillende instellingen kampen met grote hoeveelheden gedigitaliseerde (al dan niet handgeschreven) documenten die niet getranscribeerd zijn. Dat heeft als gevolg dat deze bronnen weinig doorzoekbaar zijn. Vaak is dat te wijten aan de arbeidsintensieve aard van het manueel transcriberen. Vanuit deze nood is het service platform Transkribus ontstaan. De tool werd ontwikkeld door de Universität Innsbruck in samenwerking met twintig andere universiteiten binnen het Europees HORIZON 2020-project.
Transkribus is een uitgebreid platform voor het (automatisch) transcriberen, herkennen en doorzoeken van gedigitaliseerde tekstdocumenten. Alle diensten zijn ontwikkeld met het oog op het delen van expertise en het hergebruik van data en onderzoek. Naast de bovenbeschreven HTR, voorziet Transkribus ook in de mogelijkheid om lay-outanalyses uit te voeren. Dat wordt idealiter verricht vooraleer HTR toegepast wordt. Zo wordt tijdens de herkenning geen cruciale informatie over het hoofd gezien of verkeerd geïnterpreteerd.
Transkribus kun je downloaden via de website van READ-COOP SCE. De enige vereiste is het aanmaken van een gebruikersaccount. Het platform is een betalende dienst, maar READ biedt bij iedere nieuwe aanmelding een volume gratis te verwerken pagina’s aan. Het platform is laagdrempelig en vereist geen voorafgaande kennis. Ondertussen gebruiken diverse Vlaamse culturele instellingen (zoals de Vlaamse Erfgoedbibliotheken en het ModeMuseum) deze tool.