De thesarus, met uisterven bedreigd?

Home META META Nummer 2011 / 3 De thesarus, met uisterven bedreigd?

META Nummer 2011 / 3

De thesarus, met uisterven bedreigd?

Geschreven door Piet De Keyser, Egbert De Smet

Gepubliceerd op 01.04.2011

Onlangs vroeg een collega: 'Thesauri? Bestaan die dan nog?' Ja, die bestaan nog en meer zelfs: thesauri en thesaurustheorie zijn springlevend, tenminste als we dat vergelijken met wat rond trefwoordsystemen gebeurt. Niet dat die er zo slecht aan toe zijn, maar de theorievorming erover is niet bijzonder actueel. Bij thesauri is er meer leven in de brouwerij: instellingen zoals ISO, ANSI/NISO en IFLA hebben allemaal nog vrij recent hun normen i.v.m. thesauri bijgewerkt. Dit artikel geeft een overzichtje van wat er allemaal gaande is, internationaal en in Vlaanderen in de enorme deining van de nieuwe elektronische informatieomgevingen.

Nieuwe standaarden

Midden de jaren tachtig promoveerden de toenmalige diverse regelwerken in verband met thesauri tot twee ISO-normen: één voor eentalige thesauri (IS0 2788) en één voor meertalige (ISO 5964). Hoewel dit uitermate bijdraagt tot het prestige van de theorie, zijn deze normen in de praktijk nooit op grote schaal verspreid. In België zijn ze slechts in een paar bibliotheken aanwezig; dat ze nogal prijzig zijn – zoals de meeste ISO-normen trouwens – zal daar niet vreemd aan zijn.

Daarnaast hadden ook andere instellingen die zich bezighielden met het ontwikkelen van standaarden hun eigen publicaties. Zo bracht het Amerikaanse ANSI/NISO in 1974 de Guidelines for the construction, format and management of monolingual thesauri (Z19.19) uit, waarna in 1980, 1988 en 1993 telkens een bijgewerkte versie verscheen. Ook de Unesco publiceerde in 1980 haar Guidelines for the establishment and development of monolingual thesauri for information retrieval (PGI.80/WS/12). Eigenlijk verschillen deze normen niet fundamenteel van elkaar; ze herhalen soms zelfs woordelijk dezelfde voorbeelden.

In een artikel merkt Stella Destre Clark op: “But after the second edition of ISO 2788 [...] was issued in 1986, the international committee responsible for its maintenance became dormant for two decades.”¹ Het duurde inderdaad tot na de eeuwwisseling eer deze standaarden herwerkt werden. De veralgemening van internet en nieuwe fenomenen als ontologieën noopten ertoe om de regelwerken te herzien. Bij de herziening van de bestaande normen tracht men nu ook rekening te houden met dergelijke systemen. Daarom zijn de ANSI/NISO ‘Guidelines’ bij de update van 2005 omgedoopt tot Guidelines for the construction, format, and management of monolingual controlled vocabulary. In 1995 bracht de IFLA een speciaal regelwerkje over meertalige thesauri uit, de Guidelines for multilingual thesauri.

Ondertussen werd bij het ISO gewerkt aan een update van de normen ISO 2788 en ISO 5964: die worden omgedoopt tot de tweedelige ISO 25964 met als titel Information and documentation – Thesauri and interoperability with other vocabularies. Ook hier weer is sprake van andere systemen. Het eerste deel bevat wat al in ISO 2788 en in ISO 5964 samen stond: de theorie over een- en meertalige thesauri. We zien hier een wat genuanceerder beeld i.v.m. al dan niet splitsen van termen, alsook aandacht voor moderne publicatievormen van thesauri op internet, voor thesaurussoftware en voor XML-schema’s. Het tweede deel zal handelen over uitwisselbaarheid van data tussen thesauri en andere vocabulaires: classificaties, trefwoordsystemen enzovoort. Met het oog op de ontwikkeling van het semantische web belooft dit dus een bijzonder nuttig instrument te worden, zoals verder nog zal blijken.

Dit alles gaat echter nogal ongemerkt voorbij in de professionele wereld, zeker in de Nederlandstalige vakliteratuur.

Nederlandstalige vakpublicaties

Hoewel er in het Engels tal van inleidende en standaardwerken over thesaurusbouw verschijnen, is er niet bijzonder veel in het Nederlands te vinden. De afgelopen twintig jaar zagen we slechts een viertal boeken die (gedeeltelijk) over thesaurusbouw gaan. In 1992 verscheen Thesaurusbouw: handboek voor opleiding en praktijk van A. Ligthart Schenk en collega’s. Van 1997 (met een herwerkte herdruk in 2000) is nog Woordsystemen: theorie en praktijk van thesauri en trefwoorden door H. Magrijn en collega’s, dat gedeeltelijk over thesaurusbouw gaat. In 2002 publiceerde Dirk Vervenne Thesaurustechnologie: instrumenten voor coöperatief kennisbeheer, dat in de eerste plaats over (semi)automatische thesaurusconstructie aan de hand van de IKEM-software handelt.

Daarna was het acht jaar wachten op het volgende boek, namelijk Organiseer je informatie: aan de slag met thesauri, taxonomieën, tags en topics van Peter Becker en collega’s. Weliswaar komen thesauri nog ter sprake in een aantal afstudeerwerken aan de diverse bibliotheekopleidingen, maar dit zijn nog altijd geen volwaardige hand- of leerboeken. Ook verschijnen er in de weinige Nederlandstalige vakbladen eigenlijk geen publicaties over thesauri – hooguit casestudy’s over projecten waarbij een thesaurus gebruikt wordt of al eens een aankondiging van een (nieuwe versie van een) thesaurus. In het Nederlands werden evenmin internationale regelwerken vertaald. En blijkbaar merkt men nieuwe regelwerken ook niet echt vlug op. Zo baseert Organiseer je informatie zich nog altijd op de (ondertussen een kwart eeuw oude) ISO 2788-standaard en gaat daarbij voorbij aan de nieuwe versie van ANSI/NISO 39.19 of aan ISO 25964.

Het Babylonische warenhuis

Waar ISO 2788 nog een Poolse instelling vermeldt als clearinghouse voor thesauri, is deze rol ondertussen overgenomen door het Taxonomy Warehouse, dat zichzelf omschrijft als “the only site on the Internet dedicated to taxonomies for corporations”. Hoewel dit geen officiële instelling is, geniet het Taxonomy Warehouse algemene erkenning. En een taxonomy is hier dan “a method for categorizing and organizing content to solve business problems”; met andere woorden een hulpmiddel om een ‘knowledge organization system’ uit te bouwen. Alles blijkt daarvoor bruikbaar: thesauri sensu stricto, trefwoordsystemen, classificaties, ontologieën, verklarende woordenlijsten enz. Dit zijn in onze ogen toch allemaal heel onderscheiden systemen

Thesauri verschillen van trefwoordsystemen door het feit dat de eerste postcoördinatief zijn (Een uitgebreid onderwerp wordt beschreven met combinaties) en relatief uitgebreide relaties tussen termen leggen, terwijl de laatste precoördinatief van aard zijn (Een uitgebreid onderwerp wordt met één of meerdere woorden beschreven.) en slechts beperkte relaties tussen termen kennen. Ontologieën daarentegen werken met uitgebreide, zelf-definieerbare relaties. Classificaties en taxonomieën geven gewoonlijk een systematisch overzicht van (een deel van) onze kennis. In de praktijk ligt het weliswaar iets complexer doordat er raakvlakken tussen de onderscheiden soorten mogelijk zijn: zo kan een thesaurus opgebouwd worden met een taxonomie of classificatie als een soort van ruggengraat waardoor de termen ook in een systematisch overzicht komen te staan. Toch is het misschien wel wat al te grof om al deze dingen zondermeer “vocabularies” te noemen, zoals het Taxonomy Warehouse doet. Op de site valt zelfs helemaal geen onderscheid te maken tussen de soorten bij het zoeken naar een concrete “vocabulary”; je kunt nergens bepalen dat je bijv. een classificatie en geen trefwoordensysteem wil.

Die spraakverwarring heerst soms ook in vakpublicaties. In het boekje Tagging van Gene Smith lezen we op één en dezelfde pagina: “A taxonomy is a controlled vocabulary that establishes parent-child, or broader and norrow, relationships between terms.” en “The most famous taxonomy is probably the Dewey Decimal Classification system.”² De formulering van het eerste citaat past voor een thesaurus en niet voor taxonomie, want daarvoor ontbreekt de notie van systematisch overzicht, die essentieel is voor een taxonomie. Bij het tweede citaat worden taxonomie en classificatie zondermeer gelijkgesteld, terwijl we pas van een classificatie spreken als er een extra element aanwezig is, nl. een notatiesysteem. Verder lezen we nog: “Finally, the thesaurus is like a taxonomy on steroids. It combines broader, narrower and equivalence relationships along with associative ones, allowing you to traverse a hierarchy by jumping between related concepts as well as browsing up and down.” Ook hier weer worden taxonomie en thesaurus zonder meer gelijkgesteld. Al in 2004 schreef Lars Marius Garshol: “The term taxonomy has been widely used and abused to the point that when something is referred to as a taxonomy it can be just about anything, though usually it will mean some sort of abstract structure.”³ en “Like the term ‘taxonomy’ the term ‘thesaurus’ has been used to describe all kinds of subject classification structures […]”⁴. Het jongste Nederlandstalige boek over onder meer thesauri, Organiseer je informatie, zet die traditie gedeeltelijk voort.

Het laatste decennium zag het er misschien een beetje naar uit dat ontologieën de plaats zouden innemen van de klassieke thesauri. Ontologieën doen in wezen hetzelfde als thesauri, nl. relaties tussen termen leggen, maar dan op een veel complexere manier. Zo is het perfect mogelijk om een ontologie over zoiets als bier te maken waarin relaties voorkomen als “heeft ingrediënt” en “is ingrediënt van” of “heeft producent” en “is producent van”, terwijl we bij een thesaurus vrede moeten nemen met slechts een handvol voorgeschreven relaties: voornamelijk bredere, engere en verwante termen, en enkele varianten daarvan. Ontologieën zijn dan ook nogal populair in middens van knowledge management, maar in bibliotheken kennen ze nog maar weinig succes, hoewel er wel aandacht voor bestaat in de bibliotheekopleidingen.

De charme van thesauri Waarom bestaat er eigenlijk (internationaal althans) relatief veel aandacht voor thesaurusbouw en voor de ontwikkeling van concrete thesauri? Een eerste reden is dat theorie over thesaurusbouw compact, clean, beheersbaar is, in tegenstelling tot de theorie i.v.m. trefwoordsystemen. Die zijn vaak het resultaat van een zeer lange praktijk en bevatten allerlei uitzonderingsregels en ad-hocoplossingen. Om uit te leggen hoe de Library of Congress Subject Headings (LCSH) werken heb je dan ook een boek van niet minder dan 550 pagina's nodig⁵.

Ook sluiten postcoördinatieve systemen dichter aan bij de praktijk van de information retrieval, waarbij de zoeker vaak een aantal losse woorden intikt. Daarbij bekommert hij of zij zich bijvoorbeeld niet om de voorgeschreven volgorde waarin de afzonderlijke delen van een geleed trefwoord voorkomen. Systemen met trefwoorden als inhoudelijke ontsluiting zorgen er dan ook voor dat die vaste volgorde geen hindernis vormt bij het zoeken. In de Library of Congress was er dan ook discussie over pre- versus postcoördinatieve aanpak in verband met de LCSH, toch het belangrijkste precoördinatieve systeem ter wereld. De uitkomst van de discussie was dat men vooralsnog vasthoudt aan precoördinatie, maar de hele discussie bewijst dat dit niet langer evident is. De verleiding is echter dan ook groot om op zijn minst zo goed te ogen als een thesaurus.

Vermomde trefwoordsystemen De theorie over thesaurusbouw mag dan wel relatief eenvoudig zijn, ze is ook relatief streng; wie de basisregels niet volgt, eindigt ongetwijfeld met een rammelende thesaurus. En volgens die basisregels behoren thesauri in wezen inderdaad postcoördinatief te zijn. Fundamenteel zijn ook de regels over hoe je de relaties tussen de termen legt. Het is niet voldoende om kwistig om te springen met bredere, engere en verwante termen om uiteindelijk een goedgevormde thesaurus te krijgen. Dit gebeurde in de jaren tachtig van de vorige eeuw toen de LCSH omgebouwd werd tot een “thesaurus”. LCSH is en blijft in wezen een precoördinatief systeem met zeer vele precoördinatieve combinaties en bovendien kun je niet zomaar straffeloos “zie ook”- verwijzingen de ene keer door “bredere term”, de andere keer door “engere term” of nog een andere keer door “verwante term” vervangen. Mary Dykstra schreef in 1988 een scherp artikel tegen deze gang van zaken. Ze spaarde daarin allerminst haar kritiek op LC. Ze stelde dat elke wijziging aan de LCSH er één in negatieve zin geweest was en dat LCSH toch wel een dieptepunt bereikt had door zowat alle regels over thesaurusbouw te verkrachten.⁶

Er zijn nog tal van voorbeelden te vinden waar dezelfde bedenkelijke techniek toegepast werd, soms zelfs in combinatie met een kwistig gebruik van omgezette termen (type “Bouwkunst, Romaanse”), iets wat in elk regelwerk ten strengste afgekeurd wordt (met uitzondering van persoonsnamen die als termen gebruikt worden natuurlijk).

Een essentieel onderdeel van de theorie zijn nog steeds de zgn. splitsingsregels, nl. regels om samengestelde termen zoveel mogelijk op te breken in enkelvoudige. Hoewel de huidige normen hierover iets minder streng zijn dan vroeger, is er nu een tendens om het begrip “thesaurus” uit te breiden zodat ook trefwoordsystemen eronder vallen. Dit is niet verzoenbaar met het basisprincipe dat een thesaurus in wezen postcoördinatief is. Typisch in dit verband is dat het recente boek Organiseer je informatie de Medical Subject Headings (MeSH) als een voorbeeld van een thesaurus behandelt.

Nog meer slechte praktijk

r zijn nog meer problemen met concrete thesauri. Eén ervan is het voorkomen van “verweesde termen”. Dit zijn termen zonder relaties met andere termen of met alleen “related terms” als relatie. Eigenlijk weet je dan niet echt veel te vertellen over zo’n term.

Ook het kwistig gebruik van polyhiërarchie is meestal nogal verdacht. Polyhiërarchie betekent dat een term meerdere begrippen als bredere term heeft en er zijn natuurlijk wel dergelijke gevallen, maar die komen niet zo algemeen voor als sommige thesaurusbouwers wel zouden willen. Een klassiek voorbeeld ervan zijn “muilezels”: hiervoor kunnen we zeggen dat zowel “paarden” als “ezels” een bredere term is. In vele thesauri is het overtreden van de sommige-alle-regel ook legio. Die regel laat toe om na te gaan of de relatie tussen een generische engere en bredere term zuiver is: alle merels zijn zangvogels en sommige zangvogels zijn merels. Deze test gaat niet meer op wanneer we “treinen” als engere term van “openbaar vervoer” definiëren: treinen zijn geen openbaar vervoer, maar vervoersmiddelen. Partitieve relaties zijn dan weer beperkt tot een handvol gevallen, ook nog in ISO 25964. “Stoelen” met als engere term “stoelruggen” is niet goed omdat dat gaat conflicteren met de generieke relaties tussen bijv. “stoelen” en soorten ervan. Toch zien we dat vele thesaurusbouwers zich daar allemaal weinig aan gelegen laten, hoewel dit tot onzuiverheden leidt.

Er zijn bijzonder goede thesauri, zoals die van de Unesco, maar het is helemaal niet moeilijk om de vinger te leggen op allerlei onzuiverheden in tal van thesauri. De oorzaak is dus niet dat de theorie onduidelijk zou zijn, maar wel dat er eigenlijk weinig checklists zijn waarmee men thesauri kan beoordelen en dat een thesaurus maken wel meer om het lijf heeft dan BTen NT-relaties verzinnen.⁷

Hoe zit het nu in Vlaanderen?

Het grootste bibliotheeknetwerk in Vlaanderen, nl. dat van de openbare bibliotheken, gebruikt een precoördinatief trefwoordensysteem: de VLACC-trefwoorden. Het is een bijzonder goed systeem, met meer dan 100.000 trefwoorden en een redelijk grondige theoretische onderbouw. Het enige nadeel is dat je het zelden of nooit kunt doorbladeren in onze catalogi.

Het grootste net in de sector van de wetenschappelijke bibliotheken, nl. het Libis-net, worstelt met inhoudelijke ontsluiting. Dat is zeer begrijpelijk als je beseft dat er meer dan 100 bibliotheken aan deelnemen. Elk van hen heeft zo zijn eigen idee over inhoudelijke ontsluiting – wat er binnenkamers wel eens “de persoonlijke speeltuinen” genoemd wordt. Elders vinden we een bonte mengeling van trefwoordsystemen, van classificaties afgeleide trefwoorden, maar ook Vlaamse bewerkingen van buitenlandse thesauri. Voorbeelden van die laatste zijn o.m. de vrouwenthesaurus en de onderwijsthesaurus ADIOV, beide bewerkingen van Nederlandse voorbeelden. En dat is niet zo’n slecht idee, want er zijn wel wat Nederlandse thesauri met enig volume, bijvoorbeeld: de Nederlandse versie van de Art & Architecture Thesaurus , de Thesaurus Zorg en Welzijn, de Thesaurus Politiekunde, de NIWI-thesaurus Maatschappijwetenschappen, de Justitiethesaurus en dergelijke meer. De koepel van Vlaamse cultuurorganisaties gebruikt voornoemde aangepaste ADIOV in hun netwerk van documentatiecentra. Een meertalige implementatie van de ‘macro-thesaurus’ van OESO is in gebruik bij het netwerk van de NGO’s voor ontwikkelingssamenwerking (COCOSNET). Precies die diversiteit in de praktijk stelt nieuwe uitdagingen aan de theorie in verband met thesaurusbouw, of beter: aan de inhoudelijke ontsluiting als dusdanig.

Uitwisselbaarheid als uitdaging

Lange tijd zag het ernaar uit dat klassieke instrumenten voor inhoudelijke ontsluiting zoals trefwoordsystemen, thesauri, maar ook classificaties, het zouden afleggen tegen het jeugdige geweld van nieuwe instrumenten als ontologieën. Classificaties en trefwoordsystemen hebben inderdaad nog hun wortels in de 19e eeuw en werden op het eind van vorige eeuw een beetje genegeerd door knowledge managers — vaak tot ergernis van de bibliotheekwereld. Zo verweet Dagobert Soergel hen in een roemrucht, maar ook een beetje zurig artikel dat ze zich veel moeite getroostten om te proberen het wiel terug uit te vinden en helemaal niet profiteerden van de expertise in de bibliotheekwereld ⁸.

Twee ontwikkelingen bewijzen echter dat de knowledge managers ondertussen de waarde van onze klassieke systemen ontdekt hebben en erkennen. Ten eerste lijst het Taxonomy Warehouse ook zeer traditionele classificaties, thesauri en subject headings op als goede voorbeelden voor knowledge management. Daarnaast ontwikkelde het World Wide Web Consortium het Simple Knowledge Organization System (SKOS), een standaard die bedoeld is “to support the use of knowledge organization systems (KOS) such as thesauri, classification schemes, subject heading lists and taxonomies within the framework of the Semantic Web”. Maar ook het hele arsenaal aan inhoudelijke ontsluiting dat massaal geproduceerd wordt in de vorm van tagging, folksonomies enz. moet door middel van SKOS gelinkt kunnen worden aan andere systemen. Op die manier zou het mogelijk worden dat we bij een opzoeking via een internetzoekrobot erop gewezen worden dat er voor onze zoekterm ook een bredere of engere term bestaat. Vervolgens zouden we dan bijvoorbeeld voor de meer specifieke term kunnen kiezen en misschien klikken we daarna wel door naar een equivalent ervan in een andere taal. Daarna kunnen we misschien doorheen een daaraan gekoppelde classificatie bladeren. Als we uiteindelijk beslissen om de documenten te bekijken die onder een bepaalde rubriek van deze classificatie vallen, krijgen we ook nog extra suggesties verwijzingen naar verwante documenten op basis van tags die eerdere lezers aangebracht hebben.

Als het inderdaad juist is dat in 2018 het tijdperk van het semantische web aanbreekt, zoals we herhaaldelijk voorspeld zien in vele presentaties en schema’s op de site van het World Wide Web Consortium (W3C), dan maakt SKOS het mogelijk dat onder meer de kennis die in thesauri opgeslagen zit hierbij een belangrijke rol speelt omdat in een (goede) thesaurus nu eenmaal bijzonder veel doordachte relaties tussen termen steken. Waar ISO 25964-1 zich nog voornamelijk bezighoudt met de klassieke theorie over thesaurusbouw, zal ISO 25964-2 zich helemaal toespitsen op de uitwisselbaarheid van gegevens tussen verschillende systemen. Ongetwijfeld zal SKOS daarbij een prominente rol spelen.

De gevolgen van de eigenzinnige praktijk

Het W3C neemt bij de ontwikkeling van SKOS geen standpunt in tegenover het al dan niet welgevormd zijn van thesauri of andere systemen. Het bevestigt dat er heel wat belangrijke kennis in steekt en het wil er gebruik van maken voor de realisatie van het semantische web. Of dit probleemloos zal gaan wanneer daarbij bijvoorbeeld minder goed gevormde thesauri gebruikt worden, valt nog af te wachten.

De hedendaagse herzieningen van de standaarden houden in zekere zin rekening met het feit dat de regels, zoals die in vorige versies geformuleerd waren, soms nogal creatief toegepast worden. Hier en daar doen ze kleine toegiften aan de praktijk door iets minder streng te zijn, hoewel we zeker niet kunnen spreken van een algehele afzwakking van de traditionele regels. We zien het anderzijds waarschijnlijk nog niet vlug gebeuren dat bestaande thesauri herwerkt worden omdat de standaarden updates krijgen.

Hoewel er in Vlaanderen her en der wellicht wel thesauri ontwikkeld worden, ligt het accent vooral op aanpassing van bestaande (Nederlandse) systemen. Dat de grote bibliotheeknetwerken andere of een groot aantal diverse instrumenten gebruiken, maakt dat er geen aanwijsbare expertisecellen in verband met thesaurusbouw zijn. Misschien is het toch wel wenselijk dat diegenen die er zich aan wagen om thesauri te ontwikkelen, te bewerken of te vertalen, zouden kunnen terugvallen op Nederlandstalige standaardwerken waarin de meest recente regelwerken uitgelegd worden met aandacht voor de specificiteit van de Nederlandse taal.

¹ Stella Dextre Clark, 'Thesaurus standards on a converging track', in: Legal information management, jrg. 10 (2010), p. 43.
² Gene Smith, Tagging: people-powered metadata for the social web. Berkeley, CA: New Riders, 2008, p. 72.
³ Lars Marius Garshol, 'Metadata? Thesauri? Taxonomies? Topic maps! Making sense of it all', in: Journal of information science, vol. 30 (2004), p. 381.
⁴ Ibib., p. 382.
⁵ Lois Mai Chan, Library of Congress Subject Headings: principles and application. Westport: Libraries Unlimited, 2005.
⁶ 8 Mary Dykstra, LC Subject Headings disguised as a thesaurus: something had to be done with LC subject headings, but is this it?, in: Library journal, vol. 113 (1988), nr. 4, p. 42-46. Dykstra legt gedetailleerd uit waarom dit allemaal niet kan, maar gebruikt daarbij nergens de termen post- en precoördinatief ...
⁷ Leslie An Owens en Pauline Atherton Cochrane, 'Thesaurus evaluation', in: Sandra K. Roe en Alan R. Thomas, The thesaurus: review, renaissance and revision (Binghamton: The Haworth Press, 2004) onderscheiden “comparative, observational, formative, and structural methods for evaluating thesauri”, maar geven verder geen check lists.
⁸ 'The rise of ontologies or the reinvention of classification', in: Journal of the American Society for Information Science, vol. 50, p. 1119- 1120.

meta-magazine-article-pdf-Artikel_DekeyserDesmet.pdf

De thesarus, met uisterven bedreigd?

De thesarus, met uisterven bedreigd?

Nieuwe standaarden

Nederlandstalige vakpublicaties

Het Babylonische warenhuis

Nog meer slechte praktijk

Hoe zit het nu in Vlaanderen?

Uitwisselbaarheid als uitdaging

De gevolgen van de eigenzinnige praktijk

Waarom lid van de VVBAD worden?

Blijf op de hoogte