Transkribus

META Nummer 2021/5

Transkribus

Geschreven door Astrid Vergauwe
Gepubliceerd op 15.06.2021
IMPORTANT
Desktop applicatie Transkribus - Copyright © 2021 READ-COOP SCE. 'Ons Vlaanderen' - publiek domein.

Machinelearning en artificiële intelligentie zijn twee technologieën die stilletjesaan ingeburgerd raken, niet alleen in ons dagelijks leven (bv. de slimme speaker Alexa of de kattenfilters van Zoom), maar ook binnen verschillende diensten in de erfgoed- en informatiesector. Zowel machinelearning als artificiële intelligentie hebben aangetoond dat ze waardevol kunnen zijn bij het automatisch beschrijven van collecties, het verrijken van data en het doorzoekbaar en bruikbaar maken van informatie (zie Uitgepakt in META 2019/8, p. 38). In dit artikel gaan we dieper in op de beeldherkenningstoepassing Handwritten Text Recognition (HTR). Dat proces kan uitgevoerd worden met de tool Transkribus.

Waarom?

Net als het registreren van objecten, is het transcriberen van (handgeschreven) documenten een zeer tijdsintensieve taak. Dankzij specifieke toepassingen binnen de tekst- en beeldherkenning, kunnen deze opdrachten ondersteund of opgevangen worden door intelligente, geautomatiseerde processen.

HTR

HTR of handschriftherkenning is het automatisch herkennen, verwerken en interpreteren van handgeschreven documenten door een computer. De bron hoeft niet noodzakelijk een papieren of analoog document te zijn. Deze technologie laat toe om handgeschreven tekst op foto’s of touchscreens te herkennen. HTR kan zowel offline als online uitgevoerd worden. Bij de offline herkenning wordt de handgeschreven tekst geautomatiseerd omgezet in een digitaal bestand met lettercodes. Dat gebeurt door een camera of optische scanner. Vervolgens wordt het bestand verder herkend en verwerkt door de tekstherkenningssoftware. Binnen de online toepassing wordt de tekstherkenningssoftware rechtstreeks losgelaten op reeds gedigitaliseerde bronnen.

IMPORTANT
'Der heilige Hieronymus im Gehäus', Albrecht Dürer - publiek domein.

Door HTR toe te passen, worden de digitale bestanden machineleesbaar en doorzoekbaar voor bijvoorbeeld computers. Niet alleen kan de tekst doorzocht worden op trefwoorden (keyword search), met behulp van Named Entity Recognition (NER) kunnen nadien termen uit de tekst op een (semi-)automatische wijze gekoppeld worden aan linked open data authorities (bv. thesauri).

Transcribus 

Verschillende instellingen kampen met grote hoeveelheden gedigitaliseerde (al dan niet handgeschreven) documenten die niet getranscribeerd zijn. Dat heeft als gevolg dat deze bronnen weinig doorzoekbaar zijn. Vaak is dat te wijten aan de arbeidsintensieve aard van het manueel transcriberen. Vanuit deze nood is het service platform Transkribus ontstaan. De tool werd ontwikkeld door de Universität Innsbruck in samenwerking met twintig andere universiteiten binnen het Europees HORIZON 2020-project.

Transkribus is een uitgebreid platform voor het (automatisch) transcriberen, herkennen en doorzoeken van gedigitaliseerde tekstdocumenten. Alle diensten zijn ontwikkeld met het oog op het delen van expertise en het hergebruik van data en onderzoek. Naast de bovenbeschreven HTR, voorziet Transkribus ook in de mogelijkheid om lay-outanalyses uit te voeren. Dat wordt idealiter verricht vooraleer HTR toegepast wordt. Zo wordt tijdens de herkenning geen cruciale informatie over het hoofd gezien of verkeerd geïnterpreteerd.

Transkribus kun je downloaden via de website van READ-COOP SCE. De enige vereiste is het aanmaken van een gebruikersaccount. Het platform is een betalende dienst, maar READ biedt bij iedere nieuwe aanmelding een volume gratis te verwerken pagina’s aan. Het platform is laagdrempelig en vereist geen voorafgaande kennis. Ondertussen gebruiken diverse Vlaamse culturele instellingen (zoals de Vlaamse Erfgoedbibliotheken en het ModeMuseum) deze tool.

Waarom lid van de VVBAD worden?

  • Deel zijn van het netwerk van experten en collega's
  • Mee de belangen van de informatiesector behartigen
  • Korting krijgen op de activiteiten van de VVBAD
  • Toegang krijgen tot vakinformatie
  • Participeren in de verenigingsbesturen
Word lid
© Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw
Statiestraat 179 | B-2600 Berchem (Antwerpen)
Tel: (+32) 03 281 44 57 | email: vvbad@vvbad.be