In de context van digitale
archivering verstaat
men onder web crawling,
web harvesting en web
scrapping technieken waarbij
een internetbot, een
computerprogramma
dat op
een autonome manier taken
kan uitvoeren, delen van het
world wide web doorzoekt
om kopieën te maken van
de webpagina’s die men wil
bewaren. Web crawlers zijn
oorspronkelijk ontwikkeld
om inhoud te indexeren (bv.
door zoekmachines). Ze zijn
nadien aangepast om websites
te archiveren zonder
medewerking van hun eigenaar
of directe toegang tot
de server. Vandaag is web
crawling de meest gangbare
techniek voor de automatisering
van het verzamelen van
grote hoeveelheden informatie
op het web. Web crawlers
zijn in staat om data sneller
en met groter detail te verzamelen
dan mensen die het
web manueel doorzoeken.
De resultaten van web crawls
worden vaak snapshots
genoemd; de websites worden
immers op een bepaald
moment en in een bepaalde
toestand gearchiveerd.