IIPC webarchiveringsconferentie 2023

META Nummer 2023/7

IIPC webarchiveringsconferentie 2023

Geschreven door Sophie Bossaert
Gepubliceerd op 07.11.2023
IMPORTANT

Op 11 en 12 mei 2023 organiseerde het International Internet Preservation Consortium (IIPC) zijn jaarlijkse webarchiveringsconferentie in het Nederlands Instituut voor Beeld & Geluid in Hilversum, in samenwerking met de Koninklijke Bibliotheek van Nederland (KB). Deze jaarlijkse conferentie brengt experten van over de hele wereld samen, waaronder nationale bibliotheken en archieven, softwareontwikkelaars, preserveringsspecialisten, onderzoekers en andere geïnteresseerden die met deze online bronnen aan de slag willen gaan. Het IIPC werd in juli 2003 opgericht als een consortium van twaalf instellingen om de ontwikkeling van webarchiveringspraktijken te stimuleren (procedures, tools en standaarden). Twintig jaar later continueert het IIPC zijn inspanningen en staat het aan de bakermat van diverse webarchiveringspraktijken en -programma’s.

Het centrale thema van de tweedaagse was veerkracht en vernieuwing, waarbij de aandacht uitging naar een verhoogde toegang en hergebruik van collecties, nieuwe onderzoeksmethodes en best practices in bijvoorbeeld de samenwerking met onderzoekers of datamanagement, afstemming met andere digitale collecties, gemeenschapsvorming rond het gebruik van standaarden (bijvoorbeeld WARC), kwaliteitscontrole, duurzame en laagdrempelige opensourcetools en preserveringsstrategieën.

In het luik Onderzoek en toegang werd ‘The Archives Unleashed’-toolkit voorgesteld. Het project ontwikkelde een opensourceonderzoeksplatform voor omvangrijke webarchieven, omdat er amper analysetools, infrastructuren of gebruiksvriendelijke zoekomgevingen beschikbaar zijn. Er werden onder meer datathons georganiseerd om de betrokkenheid en ervaring van onderzoekers in dit domein te verhogen. Ook in het ResPaDon-project van de Bibliothèque nationale de France (BnF) en de Universiteit Rijsel werden best practices (handleidingen, rapporten, use cases) ontwikkeld voor het (her) gebruik van webcollecties voor academisch onderzoek. Een specifieke collectie over de presidentsverkiezingen van 2002 werd ter beschikking gesteld voor datamining, dataanalyse en datavisualisatie. Tot slot is het project All Our Yesterdays (AOYTK) het vermelden waard. Deze laagdrempelige toolkit helpt om de inhoud van webarchieven te verkennen via Google Colab en is een afgeleide van de Archives Research Compute Hub (ARCH) en The Archives Unleashed Toolkit. De ARCH ondersteunt data-analyse van webarchieven en digitale archieven en wordt reeds gebruikt door een actieve gemeenschap van onderzoekers, bibliotheken en archieven in diverse domeinen.

IMPORTANT

Wat betreft de raadpleging van webarchieven, doen meer en meer instellingen een beroep op de webapplicatie SolrWayback. Deze opensourcesoftware wordt gebruikt voor het doorzoeken van WARC-bestanden en indexeert ze op basis van de warc-indexer. Je kunt op ‘vrije tekst’ zoeken in HTML-pagina’s, PDF-documenten, metadata van verschillende mediatypes (bijvoorbeeld afbeeldingen), URL’s, enzovoort. Een interactieve link graph en wordcloud is beschikbaar om domeinen en zoekresultaten te visualiseren en de data kunnen ook geëxporteerd worden in een WARC- of CSVbestand. Voor ‘playback/replay’ van webarchieven kan een koppeling gelegd worden naar pywb, een webarchiveringstoolkit die geschikt is voor het afspelen van webpagina’s van omvangrijke webarchieven.

Voor de captatie van webarchieven werd gefocust op de opensourcetool Browsertrix-crawler (software die webbrowsers ondersteunt om de captatie van websites te automatiseren) en Browsertrix Cloud (een cloudservice met gebruikersinterface om meerdere crawls tegelijkertijd op te starten). De ontwikkeling van deze tools werd gesponsord door het IIPC via het ‘Browser-based crawling system for all’-project, dat zoveel mogelijk leden toelaat om er snel mee aan de slag te gaan. Tijdens de online dag werden diverse gebruikerservaringen gedeeld (bijvoorbeeld van de nationale bibliotheken van Nieuw-Zeeland en Australië die zoals vele IIPCpartners de piste van Heritrix meer en meer verlaten) en werden de resultaten van het Saving Ukrainian Cultural Heritage Online (SUCHO)-project voorgesteld. SUCHO is een vrijwilligersinitiatief om het Oekraïens cultureel erfgoed te vrijwaren. Sinds het begin van de oorlog tussen Rusland en Oekraïne in februari 2022 werden al meer dan 5.000 websites en 50 TB aan data van Oekraïense culturele instellingen gevrijwaard.

Naast captatie, ontsluiting en onderzoek, was er ook aandacht voor kwaliteitscontrole en de preservering van webarchieven. Het Nationaal Archief van Nederland belichtte de validatie van WARC-bestanden en het gebruik van validatietools. WARC is een containerformaat waarmee je geharveste websites archiveert. Diverse tools (JHOVE, JWAT, Warcat en Warcio) werden uitgetest, maar al snel kwam men tot de conclusie dat een tool ‘to rule them all’ tot op vandaag ontbreekt.

De conferentie was een mix van presentaties over nieuwe projecten, tools en best practices, maar er was ook ruimte voor interactie via hands-on workshops over onder meer ARCH, SolrWayback en Browsertrix.

 

IMPORTANT

Waarom lid van de VVBAD worden?

  • Deel zijn van het netwerk van experten en collega's
  • Mee de belangen van de informatiesector behartigen
  • Korting krijgen op de activiteiten van de VVBAD
  • Toegang krijgen tot vakinformatie
  • Participeren in de verenigingsbesturen
Word lid
© Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw
Statiestraat 179 | B-2600 Berchem (Antwerpen)
Tel: (+32) 03 281 44 57 | email: vvbad@vvbad.be