Een nieuwe toekomst voor erfgoedwetenschappelijke data: een overzicht van research data management-initiatieven in het Koninklijk Instituut voor het Kunstpatrimonium

META Nummer 2020/4

Een nieuwe toekomst voor erfgoedwetenschappelijke data: een overzicht van research data management-initiatieven in het Koninklijk Instituut voor het Kunstpatrimonium

Geschreven door Stephanie Buyle, Wim Fremout, Edwin De Roock, Erik Buelinckx en Emmanuel di Pretoro
Gepubliceerd op 12.05.2020
IMPORTANT
Foto's: © KIK-IRPA.

Erfgoedwetenschappelijke data vormen een schat aan informatie. Door gebrekkige ontsluiting blijven ze echter vaak onderbenut. In het Koninklijk Instituut voor het Kunstpatrimonium (KIK) loopt sinds 2016 een gefaseerd research data management-programma dat zoekt naar oplossingen. De focus ligt enerzijds op het verbeteren van het interne databeheer en anderzijds op het uitbreiden van data aangeboden door het publieke collectieportaal Belgian Art Links and Tools (BALaT).

Sinds de oprichting heeft het KIK een indrukwekkende hoeveelheid foto’s verzameld, grotendeels gemaakt door de fotografen, maar ook ontvangen via schenkingen. Meer dan 750.000 gedigitaliseerde en born-digital foto’s en bijhorende metadata zijn vrij raadpleegbaar via het online collectieportaal BALaT.

Het interdisciplinaire onderzoek brengt naast collectiefoto’s ook een enorme creatie van uiteenlopende digitale onderzoeksdata voort. Het merendeel van die data komt tot stand door onderzoek te voeren op het object of het staal dat aankomt in het KIK of dat ter plaatse bestudeerd wordt.

Naast de wetenschappelijke eindrapporten zijn de onderliggende onderzoeksdata eveneens relevant. Voor die rapporten en onderliggende onderzoeksdata wordt de term ‘erfgoedwetenschappelijke data’ gebruikt. Welk type data er gegenereerd wordt, hangt af van de gestelde onderzoeksvragen.

Een onderzoek kan plaatsvinden in het kader van een conservatiebehandeling, kunsthistorische studie, authenticiteitsonderzoek enzovoort.

Voorbeelden van erfgoedwetenschappelijke data zijn onder andere spectra, chromatogrammen, mappings, jaarringsequenties, microscopische foto’s van gelichte stalen, infraroodreflectografie- en röntgenopnames. BALaT ontsluit op dit ogenblik nog maar één aspect van die erfgoedwetenschappelijke data, namelijk de officiële collectiefoto’s en bijhorende objectinformatie.

Research data management-landschap in kaart gebracht 

Om alle digitale erfgoedwetenschappelijke data te beheren en in de toekomst beschikbaar te stellen, zijn er in het KIK research data management- of RDM-initiatieven opgestart. Van een goed uitgewerkt RDM-programma is geweten dat het bijdraagt aan een zogenaamd FAIRification-proces.

Het beschikbaar stellen van onderzoeksdata impliceert dat data vindbaar (Findable) en toegankelijk (Accessible) zijn op het web en dat ze voldoen aan internationale standaarden die hen uitwisselbaar (Interoperable) en herbruikbaar (Reusable) maken.

IMPORTANT
Overzicht van erfgoedwetenschappelijke data afkomstig van onderzoek naar het zelfportret van P.P. Rubens, Rubenshuis. © KIK-IRPA

Om FAIRification te bekomen, was het op punt stellen van het databeheer in het KIK noodzakelijk. Tussen 2016 en 2019 liep er daarom een theoretisch vooronderzoek.

Het vormde de basis voor een pilootproject rond centralisatie van erfgoedwetenschappelijke data en het Heritage Science Data Archive- of HESCIDA-project dat de verspreiding ervan beoogt door het verbeteren van BALaT’s functionaliteiten en het verruimen van data aangeboden door BALaT.

Het doel van het vooronderzoek was om de moeilijkheden inzake RDM in kaart te brengen, net als de digitale dataproductie en de RDM-praktijken van alle laboratoria, restauratieateliers, de fotostudio, de digitaliseringscel en de kunsthistorici.

De rol van interventiedossiers 

Een essentiële fase in het vooronderzoek was het inventariseren van bestaande systemen, workflows en data. Zo is het interventiedossier een belangrijke schakel in de huidige omgang met erfgoedwetenschappelijke data.

Het vormt het geheugen van de gerealiseerde wetenschappelijke activiteiten binnen een onderzoeksproject en is gelinkt aan het culturele object dat onderzocht wordt. Wanneer een kunstwerk of monument door het KIK bestudeerd en behandeld wordt, zal een documentalist een interventiedossier openen.

Daarin wordt alle papieren en digitale output verzameld die voortkomt uit wetenschappelijke onderzoeksactiviteiten, uitgevoerd in het kader van een onderzoeksproject.

Doorgaans beperkt een interventiedossier zich tot administratieve documenten, correspondentie, gebruikte literatuur, officiële foto’s en de eindproducten van het eigenlijke onderzoek, zoals wetenschappelijke rapporten.

De onderliggende onderzoeksdata zijn er zelden in omsloten, toch zeker niet in ruwe of onbewerkte vorm. Het openen en beschrijven van een interventiedossier gebeurt in het collectiemanagementsysteem Adlib XPlus van Axiell.

Eenmaal het onderzoeksproject voltooid is, wordt de fysieke data-output verzameld in een interventiedossier en gearchiveerd. De afgeronde interventiedossiers vormen het semidynamische archief van het KIK.

Ze worden dikwijls opgevraagd door interne onderzoekers en zijn bovendien op aanvraag te raadplegen in de leeszaal van het KIK. Soms is een digitale versie van het interventiedossier beschikbaar.

Erfgoedwetenschappelijke data: een dark archive?

Het vooronderzoek in het KIK heeft aangetoond dat voorlopig enkel voor de interventiedossiers een beheerstrategie bestaat. Het beheer van erfgoedwetenschappelijke data die niet in een interventiedossier zitten, ligt in handen van de onderzoekers zelf.

Zij hebben vaak geen tijd om naast het restaureren, het uitvoeren van metingen en het schrijven van rapporten, nog stil te staan bij het lot van hun gecreëerde data.

Heel vaak betekent dit dat onderzoeksdata – soms ongestructureerd – op de persoonlijke schijf van hun laptop, in de cloud, op de externe harde schijf, op de schijf van de computer van het meettoestel en/of op de institutionele network share blijven staan.

IMPORTANT
Globaal overzicht van het interventiedossier over het zelfportret van P.P. Rubens in Conservation Space, testomgeving van Sirma.

Een ander probleem dat eigen is aan erfgoedwetenschappelijke data die aangemaakt worden door de laboratoria, is dat ruwe datasets dikwijls opgeslagen worden in propriëtaire of gesloten bestandsformaten.

Het betreft vaak binaire formaten die enkel leesbaar zijn voor de acquisitiesoftware die bij het instrument meegeleverd werd. Vanuit deze commerciële softwarepakketten kun je tegenwoordig meestal wel exporteren naar min of meer universele formaten.

Ze kunnen door andere instrumenten en opensourceviewers gelezen worden, maar er is nog altijd sprake van informatieverlies. Dit zijn vaak de instrumentele parameters en metadata die nochtans essentieel zijn voor de reproduceerbaarheid van de data. In sommige gevallen kunnen deze geëxporteerde bestanden niet terug ingelezen worden in de oorspronkelijke software.

De opgesomde problemen zijn eigen aan sectoren die zich in de zogenaamde long tail of science bevinden, zoals erfgoedinstellingen. Hun datacollecties zijn heterogeen, vertegenwoordigen vaak niche-informatie en laten zich moeilijk beheren.

De onderliggende onderzoeksdata – alhoewel erg waardevol – zijn hierdoor niet gemakkelijk terug te vinden en worden zelden toegankelijk gemaakt. Daarom wordt ook heel vaak naar erfgoedwetenschappelijke data verwezen als dark data of datagegevens die niet raadpleegbaar of toegankelijk zijn. 

Voorbereiding is half het werk

Om erfgoedwetenschappelijke data – en in het bijzonder de onderliggende onderzoeksdata – uit het dark archive te krijgen, is er in het KIK eveneens een beheerstrategie nodig.

Het is niet uitsluitend de verantwoordelijkheid van onderzoekers om hun data te beheren; er zou ook een systeem geïntegreerd moeten worden om het beheer te faciliteren. In het verleden werden verschillende pistes onderzocht.

Een beheersysteem dat nauw aansluit bij de dataheterogeniteit van het KIK is moeilijk te vinden, maar bestaat wel. Een mogelijke kandidaat is Conservation Space. Conservation Space is de facto een samenwerkingsplatform, voornamelijk gericht op conservatie-restauratie, waar ook erfgoedwetenschappelijke data gecentraliseerd en intern gedeeld kunnen worden.

Het is tot stand gekomen uit een internationale samenwerking van verschillende musea en erfgoedinstituten onder leiding van de National Gallery of Art in Londen en wordt sinds 2011 gesponsord door The Andrew W. Mellon Foundation.

Het Bulgaarse softwarebedrijf Sirma nam binnen dit project de technische ontwikkeling van het platform voor zijn rekening. Conservation Space wil niet alleen een oplossing bieden voor conservatie-restauratieprojecten bij de deelnemende partners, maar ook voor musea en erfgoedinstituten wereldwijd.

De broncode is daarom vrij beschikbaar. Daarnaast commercialiseert Sirma het ook als een onderdeel van zijn ruimere cloudoplossing, Museum Space.

IMPORTANT

Het implementeren van Conservation Space in het KIK kan bijdragen aan het organiseren en faciliteren van het toegankelijk maken van erfgoedwetenschappelijke data. In 2019 werd daarom Sirma’s cloud-versie van Conservation Space in een eerste fase geëvalueerd door het HESCIDA-team.

Deze interne organisatietool maakt het mogelijk om de erfgoedwetenschappelijke data gelinkt aan een interventiedossier te centraliseren, te structureren en te delen in lijn met de huidige werkwijze.

Het lost de versnippering van data op en zou de uiteindelijke export naar een publiek toegankelijk data-archief (of data repository) sterk vereenvoudigen, mocht het Conservation Space-systeem vooraf gebruikt worden.

Op dit moment loopt er een tweede fase die een tiental onderzoekers groepeert om Conservation Space te testen en te evalueren of het een toegevoegde waarde is voor de werking van het KIK. Het Conservation Space-team zit in een informele gebruikersgroep samen met het Van Gogh Museum dat deze software ook test.

Fair en open data dankzij het Heritage Science Data Archive-project

In het KIK bestond reeds lang het verlangen om het aanbod van BALaT uit te breiden, met in eerste instantie de wetenschappelijke rapporten van onderzoeksprojecten.

Het vraagt naast het op orde brengen van het interne databeheer echter ook extra middelen om deze grootse plannen te kunnen bewerkstelligen. Het KIK staat hierin niet alleen.

Het platform DIGILAB van de European Research Infrastructure for Heritage Science (E-RIHS), waarvan het KIK een partner is, probeert verschillende initiatieven voor digitale toegang tot erfgoedwetenschappelijke data in een Europese context te coördineren en te integreren.

Dankzij de financiering vanuit de POD Wetenschapsbeleid (BELSPO) ter ondersteuning van de federale wetenschappelijke instellingen die een actieve rol spelen binnen Europese onderzoeksinfrastructuren, zoals het KIK in E-RIHS, kon het vierjarige HESCIDA-project in 2019 van start gaan.

Dit is een project van E-RIHS.be (dit is de officiële naam van de Belgische hub van E-RIHS.eu, een website is er voorlopig nog niet. Voor meer informatie kun je terecht op de website van het overkoepelend consortium: www.e-rihs.eu, n.v.d.r.), de Belgische node van E-RIHS.

Een van de plannen binnen DIGILAB is het creëren van een register en zoekplatform, een virtual research environment die verschillende lokale of nationale repositories, zoals BALaT, aan elkaar zal linken en globaal doorzoekbaar maken.

Zo kan iemand met een zoekvraag verschillende repositories bevragen. De vraag ‘Geef mij alle schilderijen tussen 1597 en 1640 die het pigment loodwit bevatten’ zou dus meerdere datasets moeten aanreiken uit verscheidene Europese repositories.

IMPORTANT
Overzicht van zoekformulier en zoekresultaten in Balat; de zoekvraag betreft het Lam Gods van de gebroeders Van Eyck. © KIK-IRPA

Dit impliceert dat BALaT geoptimaliseerd en uitgebreid moet worden met andere soorten erfgoedwetenschappelijke data. Hierbij wordt gestreefd naar FAIR en open data. Binnen het HESCIDA-project zal die ontwikkeling voornamelijk tot stand komen door gebruik te maken van opensource-oplossingen en open standaarden.

Zoeken was nog nooit zo eenvoudig

BALaT is het publieke portaal dat in 2013 op maat gemaakt werd om toegang te bieden tot de collecties van de fototheek en bibliotheek van het KIK. Het fungeert als een laag bovenop Adlib, waarin metadata geregistreerd zijn. In zijn huidige vorm bevat het twee zoekformulieren.

De vereenvoudigde versie groepeert meerdere velden tot een beperkt aantal velden (wie, wat, waar en wanneer). Het geavanceerde formulier laat toe om te zoeken op specifieke velden (vervaardiger, functie vervaardiger, titel, objectnummer, materiaal, enzovoort).

Binnen het HESCIDA-project zal de bovenste laag, de BALaTwebinterface, vernieuwd worden. Er wordt eveneens een tussenlaag toegevoegd waarin metadata van Adlib en andere databronnen verzameld zullen worden met behulp van de opensource-indexatietool Elasticsearch.

Dit softwarepakket laat toe om verschillende soorten data te doorzoeken, wat in het geval van heterogene erfgoedwetenschappelijke data anders zeer complex zou zijn.

Elasticsearch kan opgevat worden als een doos die volledige fiches van diverse databronnen indexeert, zonder dat het zich moet houden aan het keurslijf van een databankstructuur. Voor elke databron die het KIK heeft, wordt een aparte index aangemaakt.

Hierin worden de specifieke metadata van deze databron verzameld. Met behulp van Elasticsearch kan dan gezocht worden in meerdere of al deze indexen samen. Het vernieuwde BALaT-platform zal de Elasticsearch-laag gebruiken om zoekresultaten te visualiseren.

Het heeft zo de mogelijkheid om data uit verschillende bronnen terug te vinden en dat met een betere performantie.

Vlot weergeven en delen van foto's 

Om collectiefoto’s te ontsluiten zodat bijhorende metadata steeds bij de foto gedeeld worden en zodat ze in hoge resolutie gevisualiseerd worden, is de IIIF-standaard (International Image Interoperability Framework, n.v.d.r.) in het leven geroepen.

Deze standaard beschrijft enkele opeenvolgende lagen. De basis wordt gevormd door de afbeeldingslaag, die het aanleveren van beeldmateriaal regelt.

Daarbovenop kan de presentatielaag voorzien worden, waarbij het beeldmateriaal beschreven wordt en bepaald wordt hoe het beeld of de sequentie aan beelden gepresenteerd moet worden. De authorisatielaag kan toegevoegd worden om getrapte toegang tot het beeldmateriaal te regelen.

IMPORTANT

Elke foto uit de collectie van het KIK wordt sinds eind 2019 automatisch omgezet naar het piramidale TIFF-formaat (Tagged Image File Format, n.v.d.r.) zodat ze aangeboden kan worden via de afbeeldingslaag van de IIIF-standaard.

Gebruikers kunnen de hoge-resolutieafbeeldingen op een snelle en efficiënte wijze laden. Iedere foto kan zo dynamisch in alle gangbare afbeeldingsformaten en -groottes gegenereerd worden. In een volgende fase wordt een presentatielaag opgezet. Manifesten bepalen de manier waarop het beeldmateriaal weergegeven wordt.

Ze bevatten beschrijvende metadata over foto’s en de structuur waarin ze weergegeven en ingelezen moeten worden door IIIF-compatibele viewers om foto’s correct te tonen. Deze manifesten zullen dynamisch aangemaakt worden door beschrijvende metadata op te halen uit Elasticsearch.

In eerste instantie zal dit gedaan worden voor de officiële fotocollectie van het KIK. Daarnaast wordt tijdens interventies heel wat ander fotomateriaal aangemaakt dat nu nog niet beschikbaar is via BALaT.

Later zal ditzelfde proces toegepast worden voor het standaardiseren van deze werkfoto’s genomen tijdens de conservatieprocedures, werfbezoeken en staalnames door de laboratoria, alsook microscopie-opnames en wetenschappelijke beeldvorming.

Vervolgens zal functionaliteit toegevoegd worden om annotaties aan te brengen op de hoge-resolutiefoto’s. De annotatie-informatie zal opgeslagen worden in Elasticsearch als een bijkomende databron.

Aangezien sommige foto’s niet publiekelijk verspreid mogen worden om redenen zoals auteursrechten en embargo’s, zal ten slotte ook een authorisatielaag voorzien worden.

Een repository voor erfgoedwetenschappelijke data

De uiteenlopende formaten waarin erfgoedwetenschappelijke data bewaard worden, vormen een uitdaging om deze te integreren in het vernieuwde BALaT. Het gaat over wetenschappelijke rapporten, meetdata en berekeningen in open en propriëtaire formaten enzovoort.

Geen van de bestaande databronnen, zoals Adlib, zijn hiervoor geschikt. Daarom zal een repository opgezet worden, gebaseerd op InvenioRDM of Dataverse, beide opensourcesoftware-oplossingen.

Dit vormt een bijkomende databron, die geïndexeerd zal worden in Elasticsearch, en zo geïntegreerd zal worden in BALaT. De datasets in de repository zullen beschreven worden volgens de conventies en standaarden die gelden voor die types van data.

IMPORTANT
IIIF-weergave van verschillende wetenschappelijke beelden van het zelfportret van P.P. Rubens, Rubenshuis. © KIK-IRPA

Elke dataset krijgt een Digital Object Identifier (DOI) van DataCite (een internationaal consortium gericht op het behoud van materiaal en toegang tot digitale bronnen, n.v.d.r.).

Op die manier bestaat er een permanente en globaal unieke verwijzing die gebruikt kan worden om erfgoedwetenschappelijke data te citeren. DataCite is de toonaangevende provider voor DOI’s voor onderzoeksdata.

Digilab: een pan-Europees portaal

Zou het niet fantastisch zijn één enkel portaal te hebben vanwaaruit erfgoedwetenschappelijke data uit Europa opgezocht kunnen worden? Het vernieuwde BALaT zal over een zogenaamde Application Programming Interface (API) beschikken, waardoor DIGILAB van E-RIHS rechtstreeks in BALaT kan zoeken.

Daardoor wordt het een lokale repository voor DIGILAB. Overal in Europa zullen gelijkaardige lokale repositories gecreëerd en gekoppeld worden aan DIGILAB.

Wil je meer weten, surf dan naar www.hescida.kikirpa.be.

Conclusie

Met zijn RDM-programma maakt het KIK een inhaalbeweging inzake beheer en ontsluiting van erfgoedwetenschappelijke data. Door Conservation Space te testen, de krachten te bundelen in E-RIHS(.be) en te focussen op open technologieën probeert het KIK zich te schikken naar de FAIR-principes.

Die principes gelden steeds meer als een ethisch kompas dat ook het HESCIDA-project navigeert. Op die manier hoopt het KIK op een dag de onontgonnen schat aan data via het vernieuwde BALaT beschikbaar te stellen.

Waarom lid van de VVBAD worden?

  • Deel zijn van het netwerk van experten en collega's
  • Mee de belangen van de informatiesector behartigen
  • Korting krijgen op de activiteiten van de VVBAD
  • Toegang krijgen tot vakinformatie
  • Participeren in de verenigingsbesturen
Word lid
© Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw
Statiestraat 179 | B-2600 Berchem (Antwerpen)
Tel: (+32) 03 281 44 57 | email: vvbad@vvbad.be