WARC

META Nummer 2022/7

WARC

Geschreven door Nastasia Vanderperren
Gepubliceerd op 15.11.2022
IMPORTANT
WARC-bestand van de Facebookpagina van meemoo geopend in een teksteditor (links) en in een WARC-viewer (rechts).

Websites en sociale media zijn niet meer weg te denken uit onze samenleving. Gebeurtenissen worden bediscussieerd op Twitter, groepen die ontstaan rond bepaalde thema’s communiceren via digitale kanalen zoals Facebook. Verschillende erfgoedorganisaties zijn dan ook gestart met het archiveren van websites en sociale media om hiervan een spoor te kunnen bewaren. Sinds 2009 is WARC het standaardformaat voor de bewaring van webarchieven.

Wat is WARC?

Websites, waaronder ook socialemediaplatformen, bestaan uit verschillende webpagina’s met onder meer tekst, afbeeldingen en video’s die opgeslagen zijn op een server. Crawlers worden gebruikt om die webinhoud te capteren en de functionaliteit ervan te bewaren (zie de Uitgepakt-rubriek in META 2017/4). De crawlers communiceren met de webserver en downloaden alle bestanden waaruit de website bestaat. De gedownloade bestanden worden vervolgens door de crawler opgeslagen en samengevoegd in één WARC-bestand. WARC, kort voor Web ARChive, kun je herkennen aan de extensie .warc, al zie je vaker zijn gecomprimeerde vorm .warc.gz. Het is een open formaat dat beheerd wordt door het International Internet Preservation Consortium (IIPC) en een ISO-standaard.

De anatomie van een WARC-bestand

WARC werd ontwikkeld als opvolger van ARC, een bestandsformaat dat door het Internet Archive gebruikt werd om webarchieven op te slaan. WARC is gelijkaardig, maar heeft enkele uitbreidingen. Zo kan het naast de webinhoud ook contextuele informatie opslaan. Een WARC-bestand bevat alle verzoeken (requests) aan de server om de inhoud van een webpagina te verkrijgen, de antwoorden (responses) van de server op die verzoeken en de volledige inhoud van de gevraagde webpagina’s, maar ook metadata over de creatie en de inhoud van het bestand. Het bevat dus alle gegevens die nodig zijn om de overdracht van informatie van een webserver naar een browser tot stand te brengen en om het webarchief te identificeren.

Als je een WARC-bestand met een teksteditor opent, kun je de inhoud ervan in tekstvorm bekijken. Requests en responses zijn erin geordend als een lijst van records, aangevuld met metadata zoals het tijdstip van captatie, de checksum en de uniform resource identifier (URI). Om dubbele informatie te vermijden, is er een speciaal type record: het revisit-record. Dat verwijst naar een pagina die reeds eerder gecapteerd werd. In plaats van ze een tweede keer te downloaden, wordt er verwezen naar de eerste download van de pagina. Dit record bestaat enkel uit metadata, met een verwijzing naar het vorige response-record. Op die manier wordt redundante informatie vermeden, maar wordt toch de correcte metadata bewaard.

Waarom WARC gebruiken?

In de Uitgepakt-rubriek van META 2015/2 werd voorgesteld om met de software HTTrack websites te archiveren. Ook HTTrack communiceert met een server en downloadt alle bestanden die op de server staan. Alleen bewaart het ieder element als een apart bestand en wordt er geen contextuele informatie bewaard. Die informatie wordt wel in een WARC-bestand opgenomen. WARC biedt een gestandaardiseerde manier aan om webarchieven te bewaren en wordt daarom door verschillende internationale erfgoedinstellingen gebruikt als preserveringsformaat, ook door KBR om het Belgische web te archiveren.

Een nadeel aan WARC is dat je het niet kunt openen met een browser, zoals dat wel kan bij HTML-pagina’s. Je hebt een WARC-viewer zoals replayweb.page nodig om het bestand te kunnen bekijken.

Waarom lid van de VVBAD worden?

  • Deel zijn van het netwerk van experten en collega's
  • Mee de belangen van de informatiesector behartigen
  • Korting krijgen op de activiteiten van de VVBAD
  • Toegang krijgen tot vakinformatie
  • Participeren in de verenigingsbesturen
Word lid
© Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw
Statiestraat 179 | B-2600 Berchem (Antwerpen)
Tel: (+32) 03 281 44 57 | email: vvbad@vvbad.be