Data schonen

Home META META Nummer 2020/2 Data schonen

META Nummer 2020/2

Data schonen

Geschreven door Bart Magnus

Gepubliceerd op 11.03.2020

Vuile data?

Data zijn in meer of mindere mate “vuil” wanneer ze fouten bevatten, onvolledig zijn of inconsistent opgebouwd zijn. Om goed met je data te kunnen werken, is het belangrijk om ze maximaal schoon te krijgen en te houden. Maar hoe raken data vervuild en hoe krijg je ze weer schoner?

Heel wat collectiemetadata zijn in zekere mate vervuild. Net zoals een kraaknette woning, een leeg bureaublad en een lege to-dolijst, zijn 100 procent propere data in de meeste gevallen een illusie. Toch is het efficiënter en aangenamer werken als je de vervuiling tot een minimum beperkt.

Velden en mensen

Je data kunnen om verschillende redenen vervuild geraken. Soms werken het gehanteerde datamodel en de gedefinieerde datavelden vervuiling in de hand. Zo kunnen data te weinig gestructureerd zijn, waardoor verschillende types informatie in één veld terecht moeten komen.

In het beste geval zijn verschillende soorten informatie van elkaar gescheiden door een scheidingsteken (een separator) zoals een puntkomma (;) of sluisteken (|). In dat geval kun je de informatie achteraf vaak nog geautomatiseerd uit elkaar halen.

Wanneer er geen strikt toegepast scheidingsteken is of als het scheidingsteken ook opduikt in de data zelf (bv. een koppelteken), dan vraagt het veel manueel werk om de data weer te scheiden. Wanneer je de data in lange vrije tekstvelden wegschrijft en er meerdere mensen data invoeren, riskeer je een onoverzichtelijke en weinig logische of bruikbare datastructuur.

Ook wanneer de data wel sterk gestructureerd zijn, kan het fout gaan. Veldnamen en procedures om data in te voeren kunnen best duidelijk gedefinieerd en goed gedocumenteerd zijn. Als dat niet zo is, dan ontstaat het risico dat verschillende mensen gelijkaardige data in diverse velden wegschrijven.

Een ander risico op vervuiling is ongecontroleerde meertaligheid. Wanneer in je database zonder reden verschillende talen door elkaar gebruikt worden om bv. geografische entiteiten aan te duiden (Gent, Gand, Ghent, ...), vraagt het achteraf heel wat werk om die weer bij elkaar te brengen.

Een manier om dit op te lossen is om zo veel mogelijk met gecontroleerde lijsten te werken, waar al dan niet verschillende taalversies aan gekoppeld zijn. Bovendien kun je gecontroleerde lijsten ook koppelen aan externe authorities of gecontroleerde termenlijsten, van zeer specifieke (bv. het VIAF voor personen) tot zeer algemene (bv. Wikidata voor allerhande concepten) authorities.

Dubbels

Soms staat informatie dubbel in een database en is het niet meer duidelijk welke informatie juist is. Bij de migratie naar een nieuwe database kan een dataveld (bv. creatiedatum) meegenomen worden, terwijl men achteraf besluit om de creatiedatum voortaan in een ander veld te registreren. Soms gebeurt dat ook nog eens in verschillende datumformaten.

Het harmoniseren van de formaten waarin gelijkaardige informatie weggeschreven wordt, is dus ook een vorm van dataschoning. Daarbij is niet enkel een beslissing over het te hanteren formaat nodig, maar ook duidelijke communicatie met en procedures voor iedereen die data invoert.

Anders bestaat het risico dat sommige invoerders alsnog het oude veld blijven gebruiken om correcties aan te brengen of nieuwe data in te voeren, terwijl anderen het nieuwe veld (en een ander formaat) gebruiken. Het is dan onduidelijk welk veld de juiste informatie bevat en bovendien kunnen beide velden elkaar tegenspreken.

Up-to-date?

Een laatste type vuile data is data die niet bijgewerkt is, waardoor een gebruiker foutieve informatie te zien krijgt. Een voorbeeld is de auteursrechtelijke status van een werk. Elk jaar treden nieuwe werken toe tot het publieke domein. Auteursrechtenmetadata die deze realiteit niet volgen, zijn dus fout.

Vuil, en nu?

“Garbage in, garbage out”, luidt de spreuk. Inderdaad, op basis van schone data lever je betere kwaliteit. Je data zijn immers beter doorzoekbaar en zowel intern als extern bruikbaarder. Daardoor kunnen zowel interne als publieksgerichte processen verbeteren.

Vervuilingen in je data opsporen lukt het beste op basis van een export. Eenvoudige acties kun je al op basis van een csvexport in een spreadsheetsoftware (zoals Microsoft Excel, LibreOffice Calc, Google Sheets, …) uitvoeren. Denk bijvoorbeeld aan onlogische jaartallen of lege velden.

Afhankelijk van je collectiebeheersysteem kun je mogelijk de metadata in de csv aanpassen en vervolgens de gewijzigde metadata weer uploaden. Voor een meer doorgedreven dataschoning kun je opensourcesoftware als OpenRefine gebruiken. Ook hier werk je op basis van een export van je metadata.

OpenRefine laat je onder meer toe om overtollige witruimte te verwijderen, data uit te splitsen over verschillende kolommen of om externe authorities te koppelen. Wie technisch iets meer onderlegd is, kan overwegen om schoningsacties rechtstreeks via scripts op de data uit te voeren.

Data schonen

Data schonen

Vuile data?

Velden en mensen

Dubbels

Up-to-date?

Vuil, en nu?

Waarom lid van de VVBAD worden?

Blijf op de hoogte