Data-analyse en tekstmining

Home META META Nummer 2020/6 Data-analyse en tekstmining

META Nummer 2020/6

Data-analyse en tekstmining

Geschreven door Glenn Maes

Gepubliceerd op 23.08.2020

Op 17 juni 2020 organiseerde de VVBAD de workshop Data analytics en Tekstmining in samenwerking met het Nederlandse bedrijf GO Opleidingen, gespecialiseerd in opleidingen op maat van informatieprofessionals. Tien informatieprofessionals, met diverse achtergrond en expertise, woonden de workshop bij.

Oorspronkelijk zou deze opleiding in maart plaatsvinden in de lokalen van de VVBAD in Berchem, maar wegens de coronamaatregelen was dat niet mogelijk. Daarom werd de workshop online georganiseerd.

Het voornaamste doel van deze opleiding was het geven van een algemene inleiding over data-analyse en tekstmining. Na een serieuze brok theorie, konden we in het tweede deel écht met verschillende tools en websites aan de slag. De workshop begon met het verhelderen van een aantal definities en theoretische grondslagen:

Wat zijn big data?
Wat is data-analyse en hoe wordt een machine getraind om te leren?
Hoe geven we onze data betekenisvol en duidelijk weer (datavisualisatie)?

Tegen lunchtijd waren we vertrouwd met de basisterminologie wat betreft data en hun ‘vier V’s’ (volume, variety, velocity, veracity) en de plaats die data-analyse en tekstmining innemen in het ruimere veld van de datawetenschap.

Het zou ons te ver leiden om in dit artikel deze theoretische kaders volledig uit te schrijven, maar toch de belangrijkste krachtlijnen:

- Datamining is het automatische proces om valide, nieuwe en mogelijk bruikbare data te vinden om daaruit nieuwe kennis te generen. Men kan datamining bijvoorbeeld gebruiken om data te sorteren of te categoriseren, of om relaties of de evolutie van data doorheen de tijd te onderzoeken.

- Machine learning is een veld binnen de data-analyse. Met de kennis van datamining kan men algoritmes ontwikkelen, zodat een computer specifieke taken kan leren uitvoeren, zonder dat een mens moet tussenkomen of programmeren.

Machine learning wordt interessant als er weinig ontwikkeltijd is, het datavolume groeit of de data te complex worden. Er werd tijdens de opleiding dieper ingegaan op de wiskundige formules, zodat we de achtergrond van de oefeningen konden begrijpen.

- Datavisualisatie is het op een heldere manier presenteren van data om mensen te informeren of om data te analyseren of te verkennen. Een beeld zegt immers meer dan duizend woorden. In dit onderdeel bekeken we verschillende soorten diagrammen die hiervoor gebruikt kunnen worden (zoals de lijngrafiek en de staafgrafiek).

We zagen ook enkele nuttige tools voor datavisualisatie, zoals Wordle of Tableau. Het belangrijkste om mee te nemen: kies de juiste weergave voor het juiste doel en de juiste data. Zo zijn sommige weergaven bijvoorbeeld geschikter om data te gaan verkennen dan om data uit te leggen.

Tekstmining

Tekstmining wordt gebruikt voor de analyse van ongestructureerde informatie in de vorm van natuurlijke taal. Voorbeelden van ongestructureerde informatie zijn doorzoekbare pdf-bestanden en bestanden in Microsoft Word, gestructureerde data zijn bijvoorbeeld data in een databank.

Natuurlijke taal is de taal die de mensen spreken, in tegenstelling tot een programmeertaal bijvoorbeeld, die artificieel is. Via tekstmining kunnen we inzichten krijgen in onder andere woordfrequentie en de associaties tussen woorden in een tekst of over verschillende teksten en bronnen heen.

Deze inzichten kunnen vervolgens ook gevisualiseerd worden, bijvoorbeeld door middel van een woordwolk, om aan te geven hoe vaak een woord gebruikt wordt.

Sentimentele zoektocht

Een bijzondere vorm van tekstmining is de sentimentanalyse. Met de sentimentanalyse gaat men op zoek naar subjectieve informatie in teksten, zoals opinies en emoties. Het was een workshop, dus gingen we ook met enkele tools aan de slag, zoals:

Voor het laatste deel van de dag werden de cursisten in groepjes opgedeeld om verschillende opdrachten uit te voeren met de gratis tekstmining-tool RapidMiner.

Deze tool werd gekozen, omdat gebruikers geen kennis van programmeren nodig hebben om al een mooi resultaat uit het programma te halen. De volledige interface werkt met drag-and-drop.

Conclusie

We kunnen stellen dat deze workshop een interessante kennismaking bood met het veld van data-analyse en tekstmining.

Data-analyse en tekstmining

Data-analyse en tekstmining

Tekstmining

Sentimentele zoektocht

Conclusie

Waarom lid van de VVBAD worden?

Blijf op de hoogte