Studiedag website-archivering

Home META META Nummer 2020/5 Studiedag website-archivering

META Nummer 2020/5

Studiedag website-archivering

Geschreven door Veronique Despodt, UGent

Gepubliceerd op 19.06.2020

Tijdens een studiedag op 3 maart 2020 werden de resultaten van Catching the Digital Heritage voorgesteld, een eenjarig project van het Amsab-Instituut voor Sociale Geschiedenis (AmsabISG) en Liberas, dat focust op het archiveren van websites.

Niels Brügger, auteur van The Archived Web: Doing History in the Digital Age, raakte in de keynote de uitdagingen en mogelijkheden aan die ontstaan bij het verzamelen, preserveren en ter beschikking stellen van websites.

Wie denkt dat het digitaliseren van collecties de archiefwereld al kopzorgen bezorgde, moet pas echt slikken wanneer bij website-archivering de woorden ‘unsystematic’, ‘messy’ en ‘heterogene’ prominent in beeld komen. Het bronnenmateriaal is gefragmenteerd: een webpagina bestaat uit een combinatie van bestanden en HTML-code, en een hyperlink die er toegang toe geeft.

Die hyperlink speelt een sleutelrol bij de meest gebruikte vorm van website-archivering. Bij web crawling wordt software ingezet die webpagina’s oogst: door het volgen van hyperlinks komt de crawler steeds op andere pagina’s terecht waarvan hij telkens een snapshot neemt.

Dat proces is niet transparant en je hebt geen zicht op wat uiteindelijk in je webarchief belandt: verschillende gebruikers krijgen verschillende resultaten door de verschillende mogelijkheden bij de instellingen van de crawler (bijvoorbeeld: hoe diep ga je archiveren?).

Soms loopt het proces vast in een crawler trap. De dynamiek van het updaten van websites zorgt er dikwijls voor dat een en dezelfde archiveringsactie al verschillende versies van één webpagina oogst. Door de webcrawlers op geregelde tijdstippen te laten lopen, wordt het materiaal in veel gevallen meer dan één keer in een webarchief verzameld.

Zo bestaat het Deense Netarkivet voor meer dan de helft uit ‘dubbel’ materiaal. De heterogeniteit van de verzamelde webpagina’s is enorm: in het Deense nationaal webarchief zitten zo’n 25.000 verschillende bestandsformaten.

In een webarchief zitten geen originelen, enkel versies. Het is aan historici om te beslissen welke versie(s) ze gebruiken bij hun onderzoek. Momenteel bestaan er verschillende manieren om gearchiveerde webpagina’s beschikbaar te stellen: zoals ze er oorspronkelijk uitzagen, als lijsten met links, als vermelde entiteiten, woorden of afbeeldingen, of als een combinatie van diverse facetten.

Brügger roept op tot samenwerking tussen onderzoekers en webarchiefbeheerders om deze ‘messy’ (onoverzichtelijke, n.v.d.r.) en inconsistente zwarte doos te ontsluiten. Een nieuwe filologische toolbox mag hierbij niet ontbreken. Sally Chambers van het Ghent Centre for Digital Humanities (GhentCDH) van de UGent ging verder in op het belang van website-archivering voor onderzoekers.

Ze stelde enkele projecten voor waarbij het GhentCDH betrokken was of is, zoals WARCnet (Web ARChive studies network researching web domains and events, n.v.d.r.), PROMISE (Preserving Online Multiple Information: towards a Belgian strategy, n.v.d.r.) en KBR Digital Research Lab.

Het PROMISE-project, dat liep van 2017 tot 2019 en getrokken werd door KBR en het Algemeen Rijksarchief, moet de voorzet geven voor het opzetten van een Belgisch nationaal webarchief. We kunnen niet al onze eieren in het mandje blijven leggen van het Internet Archive, dat al sinds 1996 websites archiveert en ze aan iedereen ter beschikking stelt via Open Access.

De werking van het Internet Archive start vanuit community’s en niet vanuit nationale domeinnamen, zoals een nationaal webarchief zou doen. Slechts een fractie van wat in een nationaal webarchief terecht zou komen, wordt op dit moment door het Internet Archive bewaard. En wat als het Internet Archive zou verdwijnen?

Het belang van website-archivering door kleinere instellingen, zoals Liberas en het Amsab-ISG, mag niet onderschat worden. Lokale collecties gaan dieper dan het Internet Archive. Het collectiebeleid kan afgestemd worden op de noden van de onderzoekers.

Lokale kennis is onmisbaar voor selectie, metadatering en kwaliteitscontrole. Toen de Gentse openbare bibliotheek en digitaal innovatiecentrum De Krook in 2017 opende, maakte het GhentCDH gebruik van de betalende tool voor website-archivering Archive-It om een collectie van websites en sociale media rond het openingsweekend te verzamelen, te bewaren en te ontsluiten.

Tine Vekemans, projectmedewerker van Catching the Digital Heritage, had het over de strategie van Liberas en het Amsab-ISG voor website-archivering. Liberas collectioneert al websites sinds 2003 en richt zich vooral op de kanalen van liberale politici en organisaties.

Voor en na de verkiezingen worden ze systematisch gearchiveerd. Sinds 2009 vindt ook een jaarlijkse momentopname plaats. Het Amsab-ISG focust op sociaal-culturele organisaties en bewegingen. Hun websites worden sinds 2016 periodiek gearchiveerd. Ook kan er een archivering gebeuren naar aanleiding van specifieke gebeurtenissen.

Kleinere instellingen kunnen door hun strengere selectie van bronnen bij website-archivering een verschil maken bij de metadatering en de kwaliteitscontrole. Bij de start van het project bleek er heel wat mis te zijn met het bewaarde materiaal.

Het ging om fouten aangegeven door de crawler (die minder dynamisch evolueerde dan de websites) en foutjes in de gearchiveerde websites (ontbrekende content, problemen met de opmaak). De laatste jaren vond een opmerkelijke toename van fouten plaats, wat op het belang van een tijdige kwaliteitscontrole wijst.

Deze gebeurt het best onmiddellijk na het oogsten, zodat snel veranderende online informatie rond specifieke gebeurtenissen niet verloren gaat. Was de keuze voor een ander softwarepakket voor web crawling aan de orde?

Jeroen Fernandez-Alonso, eveneens projectmedewerker van Catching the Digital Heritage, legde op zijn beurt uit dat ook het niet gebruiken van het standaardformaat WARC (Web ARChive file format, n.v.d.r.) in het nadeel speelde van de crawler HTTrack, die het AmsabISG en Liberas vóór het project gebruikten.

Tijdens het project werden werkprocessen opgesteld voor twee andere softwareprogramma’s: GNU Wget en Heritrix. Uiteindelijk ging de voorkeur uit naar Heritrix, omdat GNU Wget een verouderde versie van het WARC-formaat aanmaakt, die de courante software niet kan afspelen om gearchiveerde websites te raadplegen.

Een nadeel is de ingewikkelde configuratie. Betalende tools zoals Archive-It zijn voor kleinere instellingen niet aan de orde, aangezien de kostprijs te hoog oploopt (bij Archive-It is dat 12.000 Amerikaanse dollar per terabyte per jaar). Welke richtlijnen volgt men het best voor het metadateren van websites?

Een instelling beslist eerst op welk niveau de website beschreven wordt: op dat van een bestanddeel (snapshot), reeks (URL) of deelarchief (website). Een internationale beschrijvingsstandaard is niet voorhanden. De richtlijnen van OCLC uit 2017 blijven immers vrij vaag.

Een instelling kijkt het best naar de mogelijkheden van het eigen collectiebeheersysteem. Voor de systemen Atlantis van Liberas en Adlib van het Amsab-ISG bleek een mapping naar ISAD(G) (General International Standard Archival Description, n.v.d.r.) de beste optie. De keuze ging dus niet naar Dublin Core of MARC 21 (MAchineReadable Cataloging, n.v.d.r.).

Tijdens het project is het beschrijven deels geautomatiseerd door het genereren van metadata via een Bash command-line en een zelfgemaakt Python-script.¹ Er bestaan veel methodes voor het genereren van metadata, elk afhankelijk van de gebruikte crawler en het opslagformaat.

Na een export naar Excel kunnen de ISAD(G)- beschrijvingen gemakkelijk toegevoegd worden. Mapping naar andere formaten kan op een eenvoudige wijze. De juridische regelgeving waaraan bewaarinstellingen gebonden zijn, vormt dikwijls een hinderpaal op het hobbelige parcours van website-archivering.

Sophie Vandepontseele (directrice Hedendaagse verzamelingen, KBR) gaf een overzicht van supranationale en nationale wetgeving die tijdens het PROMISE-project opgelijst werd. Om het nationale webarchief vanaf dit jaar op een efficiënte manier te implementeren, zijn wettelijke aanpassingen nodig.

Ook de opties voor selectie en toegang tot het nationale webarchief werden toegelicht. Ten slotte overliep Maarten Savels de technische aspecten rond opslag, preservering en toegang van websites in het AmsabISG, waar hij digitaal archivaris is.

Vooral de preservering, die momenteel enkel op bit-niveau gebeurt, vormt een uitdaging. Migratie kan problemen opleveren bij formaten zoals HTML (Hypertext Markup Language, risico op broken links) en WARC (verpakt in een container: zijn aanpassingen nodig?).

Evolueren we richting emulatie of bedenken het Internet Archive en het International Internet Preservation Consortium (IIPC) een oplossing? Omdat het onbegonnen werk is om per gearchiveerde website de rechten van de rechthebbenden te respecteren, wordt het materiaal bij het Amsab-ISG enkel in de leeszaal aangeboden.

Materiaal in HTML kan als zipbestand gedownload worden, waarna het in WARC via de software OpenWayback afgespeeld kan worden. In haar uitleiding herhaalde Kim Robensyn (Amsab-ISG) de nood tot samenwerking tussen de stakeholders. Er wordt uitgekeken naar de resultaten van het lopende BESOCIAL-project, dat het archiveren van sociale media onder de loep neemt.

Voor meer informatie over de projectresultaten van Catching the Digital Heritage en voor de presentaties van de studiedag: www.projectcest.be/wiki/Publicatie: Project:_Catching_the_digital_heritage.

Voor meer informatie over het project: www.liberas.eu/catching-the-digital-heritage en www.amsab.be/over-ons/nieuws/649-catching-the-digital-heritage.

¹ Het Python-script is te downloaden via www.projectcest.be/wiki/Publicatie: Project:_Catching_the_digital_heritage.

Studiedag website-archivering

Studiedag website-archivering

Waarom lid van de VVBAD worden?

Blijf op de hoogte