De Bibliotheekgids digitaal

META Nummer 2021/7

De Bibliotheekgids digitaal

Geschreven door Natasja Schouterden, Bram Fierens
Gepubliceerd op 27.09.2021

Digitalisering in de Erfgoedbibliotheek Hendrik Conscience

IMPORTANT
Qidenus fotografische opstelling. © Erfgoedbibliotheek Hendrik Conscience.

In 2021 bestaat de Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD) honderd jaar. Om terug te blikken op de rijke geschiedenis van deze organisatie, digitaliseerde de Erfgoedbibliotheek Hendrik Conscience alle jaargangen van De Bibliotheekgids en De Bibliotheek- & archiefgids, de voorlopers van META. Dat project is een goede illustratie van hoe de erfgoedbibliotheek haar collectie een nieuw digitaal leven geeft.

Het digitaal atelier van de Erfgoedbibliotheek Hendrik Conscience scant al sinds 2006 in uit de eigen collectie. Hierbij wordt het interne digitaliseringsbeleid toegepast: de prioriteit ligt bij publicaties die vaak opgevraagd worden, erg kwetsbaar zijn of van cruciaal belang zijn voor de collectie. Voor onderzoekers bestaat er een ‘scannen op verzoek’-service. Werken of beperkte deelcollecties die ze nodig hebben voor onderzoeksprojecten of wetenschappelijke colleges worden op hun vraag gedigitaliseerd.

Een aparte workflow binnen het digitaal atelier vormen de samenwerkingsprojecten waarbij de bibliotheek niet zelf scant, maar het te digitaliseren materiaal aanlevert. De samenwerking die momenteel de meeste tijd en energie vraagt, is die met Google Books. Google scant in sneltempo een enorme hoeveelheid werken in. Op die manier zullen binnen drie jaar zo’n 100.000 titels volledig gedigitaliseerd en op tekst doorzoekbaar zijn. Kleinschaliger is de samenwerking met de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL). De Erfgoedbibliotheek Hendrik Conscience is in Vlaanderen de eerste leverancier van Nederlandstalige letterkunde aan deze digitale bibliotheek. Een ander voorbeeld is de digitalisering van de volledige Gazet van Antwerpen, een tienjarig project met verschillende partners dat nog maar net afgerond is.

IMPORTANT
De Bibliotheekgids: klaar voor opname. © Erfgoedbibliotheek Hendrik Conscience

Mens en machine

Het digitaal atelier van de Erfgoedbibliotheek telt drie medewerkers en twee toestellen. Natasja Schouterden coördineert de afdeling, de aanvragen en de samenwerkingsprojecten. Bram Fierens is technisch expert digitale collecties en Peter Baetes is sinds jaar en dag de vaste scanoperator. Het team wordt wanneer mogelijk versterkt door vrijwilligers, jobstudenten en tijdelijke medewerkers.

Deze ondersteuning is nodig om beide toestellen te bemannen: een Zeutschel A0-scanner en een Qidenus A1-fotografische opstelling. De keuze van het toestel hangt af van de afmetingen en de kwetsbaarheid van de collectiestukken, en van de hoeveelheid materiaal. De Zeutschel wordt ingezet om grote of delicate werken te digitaliseren. Het scanproces verloopt trager, maar het resultaat bestaat uit hoogwaardige reproducties. Op dat toestel worden onder meer klantenvragen gescand, verzoeken van collega’s en aanvragen van collega-instellingen. De Qidenus foto-opstelling kan dan weer grote hoeveelheden materiaal zeer snel verwerken, dankzij het semiautomatische opnameproces en de snelle beeldcaptering. Zonder dat toestel zou de Erfgoedbibliotheek Hendrik Conscience niet kunnen ingaan op projecten zoals het digitaliseren van de volledige De Bibliotheekgids.

Ontsluiting en bewaring

Na de nodige controle en nabewerking van de beelden, worden deze opgeladen in ons DAMS (Digital Asset Management System). Deze beeldbank bevat alle hoogwaardige scans van de publicaties die het digitaal atelier inscant. Ondertussen staat de teller op 567.666 scans, of 5.340 publicaties. De gedigitaliseerde publicaties worden gekoppeld aan hun papieren equivalent in de catalogus en gesynchroniseerd met de correcte metadata uit het bibliotheekbeheersysteem Brocade. Door het opendatabeleid van de Stad Antwerpen zijn al deze hoogwaardige beelden – van publicaties waar geen auteursrecht meer op geldt – door iedereen vrij te downloaden en te gebruiken. De duurzame bewaring van de moederbestanden wordt dan weer gewaarborgd in het e-depot van de stad.

IMPORTANT
ABBYY software en DAMS beeldbank, Erfgoedbibliotheek Hendrik Conscience.

Tekst(herkenning)

Sinds een aantal jaren ontvangt de bibliotheek duidelijk meer en grotere digitaliseringsvragen naar in-huis-scanning, of voorstellen tot samenwerking – zoals het digitaliseren van de volledige De Bibliotheekgids. Vaak gaat het hier dus om seriële publicaties. Een tweede duidelijke trend is de vraag naar tekstherkenning en optical character recognition (OCR) van de scans, een vraag die voornamelijk komt vanuit het onderzoeksveld. Waar vroeger eerder het beeld primeerde, ligt de focus nu op de tekst en inhoud van het werk. Bepaalde delen van de digitale collectie worden daarom sinds ongeveer een jaar door OCR-software gehaald en kunnen daarna op tekst doorzocht worden in de beeldbank. Ook de doorzoekbare pdf is hier vrij te downloaden.

Digitalisering van de bibliotheekgids

Zoals bij alle andere digitaliseringsprojecten werd bij de digitalisering van De Bibliotheekgids gestart met het bekijken en inventariseren van de papieren collectie. Op basis van de catalogus werd nagegaan of alle metadata aanwezig waren en werden eventuele lacunes in het bezit opgespoord. Omdat De Bibliotheekgids een seriële publicatie is, werden vervolgens de structuur en de frequentie van het verschijnen in kaart gebracht. Op basis van deze informatie werd de structuur van de digitale bestanden bepaald. Er is gekozen om alle afleveringen apart te ontsluiten en ze per jaar te bundelen. Dat is de meest gebruiksvriendelijke benadering voor de eindgebruiker.

Hoe is het ingebonden? In welke staat bevindt het papier zich? Zijn er indicatoren die op problemen wijzen die tijdens het digitaliseren kunnen opduiken? Voor de digitalisering van De Bibliotheekgids werden geen moeilijkheden verwacht: de collectie bevond zich in goede staat.

IMPORTANT
Zeutschel A0 scanner. © Erfgoedbibliotheek Hendrik Conscience

De Bibliotheekgids en De Bibliotheek- en Archiefgids bevatten in het totaal 86 jaargangen en 445 afleveringen. Voor projecten van deze omvang is het Qidenus-toestel met V-vormige boekenwip het meest aangewezen. De persoon die scant, draait de bladzijden manueel om en geeft een signaal met een voetpedaal om de opname te starten. De glasplaat gaat dan automatisch in de juiste positie naar beneden, waarna de twee camera’s een opname maken. Het toestel kan zo aan zeer hoog tempo scans maken. De output bestaat uit RAW- en TIFF-bestanden. De Erfgoedbibliotheek Hendrik Conscience archiveert uitsluitend de TIFF-bestanden. TIFF wordt boven JPEG verkozen, omdat het meer mogelijkheden toelaat voor verdere bewerking door de eindgebruikers. De digitalisering werd begin augustus 2020 opgestart en duurde tot november 2020. In deze drie maanden werd ongeveer een volledige dag per week aan dit project besteed. In het totaal werden 20.942 scans gemaakt.

De nabewerking van de scans begon eind augustus 2020 en liep tot april 2021. Het doel van elk digitaliseringsproject is om een zo goed mogelijke representatie te geven van het origineel. Op het vlak van beeldbewerking komt er dus weinig werk aan te pas. Omdat er voor dit project met de fotografieopstelling gewerkt werd, is er gekozen om de beelden lichtjes te verscherpen. De leesbaarheid van de tekst is hierdoor aanzienlijk verbeterd. Daarvoor wordt steeds de software Capture1 gebruikt. Ook de kwaliteit van de scans werd gecontroleerd. Eerst en vooral werd geïnventariseerd of alle pagina’s gescand zijn. Vervolgens is er gekeken of de scans voldoende scherp zijn en geen afwijkingen vertonen. Om fouten te vermijden, werden wekelijks testopnames gemaakt om de afstelling van het toestel te controleren.

De scans van De Bibliotheekgids zijn full text-doorzoekbaar gemaakt via OCR-software. Hiervoor werd de ABBYY-finereader software gebruikt. De output bestaat uit een txt-bestand per scan en een PDF-bestand per aflevering. De tekstherkenning zelf gebeurt automatisch, maar wordt manueel aangestuurd en gecontroleerd. Op de scan wordt een zone aangeduid waarbinnen de software op zoek gaat naar karakters. Wanneer de software fouten maakt, zoals het herkennen van tekst waar geen tekst staat, kan de medewerker dat aanpassen. Het is ook mogelijk om eventuele fouten in de tekstherkenning manueel te corrigeren. Omdat dat zeer tijdrovend en omslachtig is, werd dat voor De Bibliotheekgids niet gedaan. Een concrete foutenmarge geven, is dan ook erg moeilijk. De verwachting is dat deze minder dan 25% bedraagt.

De laatste stap van het digitaliseringsproject is de ingest in de beeldbank DAMS: TIFF-, txt- en PDF-bestanden worden in één beweging opgeladen en zijn vanaf dan raadpleegbaar door het grote publiek.

Met De Bibliotheekgids voegt de Erfgoedbibliotheek Hendrik Conscience een bijzonder waardevolle titel toe aan haar digitale collectie. Het is daarnaast een mooi voorbeeld van de doorsneevraag die de laatste jaren steeds meer op tafel gelegd wordt: het digitaliseren van een substantieel corpus uit de collectie – zoals een volledige tijdschrifttitel of een deelcollectie – en er daarbij voor zorgen dat deze full text-doorzoekbaar wordt.

Waarom lid van de VVBAD worden?

  • Deel zijn van het netwerk van experten en collega's
  • Mee de belangen van de informatiesector behartigen
  • Korting krijgen op de activiteiten van de VVBAD
  • Toegang krijgen tot vakinformatie
  • Participeren in de verenigingsbesturen
Word lid
© Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw
Statiestraat 179 | B-2600 Berchem (Antwerpen)
Tel: (+32) 03 281 44 57 | email: vvbad@vvbad.be