Classificatie & search. De basis van integratie.

Probeer je eens in te beelden dat alle systemen in een landschap gebruik maken van dezelfde set met referentiewaarden of metadata. Dat zowel in een:

  • SharePoint landschap
  • CRM systeem
  • HR systeem
  • WordPress website
  • etc.

dezelfde keuzelijsten worden aangeboden om bestanden of informatie-objecten te verrijken. Dan wordt het mogelijk om met een zoekmachine alle waarden op het hele landschap met elkaar in verband te brengen. 

Integratie is niet langer een kwestie van complexe koppelingen. Belangrijk is dat als alle systemen dezelfde betekenis ontlenen aan waarden als appels en peren dan wordt een informatielandschap op vrij eenvoudige wijze opgewaardeerd tot een organisch geheel. 

Overzicht onderwerpen

Metadata, een kind kan het

De betekenis van metadata

Auto-classificatie

Taxonomie en ander jargon

Een fruitig betoog over appels en peren.

Wat moet je ermee

Het is duidelijk dat het erg ambitieus is om modellen te maken die door iedereen als geloofwaardig worden geaccepteerd. Omdat mensen verschillende opvattingen hebben over dezelfde kwesties. Elk in zijn eigen beleving. Als de behoefte er is, kan één model een goede basis vormen voor informatiearchitectuur en heeft het veel voordelen in IT-architectuur die nu ooit interfaces zijn. Dat is natuurlijk mooi, maar hoe ontwikkel je een model waar iedereen in een bedrijf het mee eens is? Dit is niet makkelijk.

Het is geen voordehandliggende ICT taak. Betrek specialisten

Vaak is dat meer dan één persoon want het fenomeen doet zich voor dat mensen een andere kijk op dingen hebben. Vaak ontstaan conflicten juist door de modellen. De situatie vereist dat iemand veel detail bekijkt, en de ander bewaakt de samenhang en koppelvlakken.

Als een organisatie de waarde onderschrijft van deze technieken, is het van belang om experts te raadplegen zoals:

  • Bibliotheek wetenschappers
  • Taalkundigen

Informatietechnologiedeskundige met een voorliefde voor het conceptuele veld van classificatie heeft de voorkeur boven professionals die zijn overgestapt naar de productiekant van de IT (bijvoorbeeld ontwikkelaars).
De toepassing van deze technieken vraagt om materiedeskundigen vanuit de organisatie. Op deze manier kan men de eerste versie opzetten en deze als uitgangspunt presenteren. Ga niet allemaal samen ruzie maken, anders komt het nooit ergens toe. Accepteer expertise zoals u ook de autoriteit van bijvoorbeeld een oncoloog accepteert. Soms moet u voorkomen dat iets zich verspreidt om het waardevol te houden.

Dit artikel gaat over taxonomieën, maar om te weten wat het woord taxonomie betekent, is het even belangrijk om te weten wat het niet is. Daarom presenteer ik een verzameling concepten uit hetzelfde bakje met jargon. 

Taxonomie

Een woord met een oorsprong in de Griekse taal; een combinatie van (taxa) concept als ordenen, gebundeld met (nómos) woorden als gebruik, regels en wetgeving. De techniek van orderenen van individuen en objecten (dingen) in groeperingen (taxa), of de enkelvoudige term taxon.

De term taxonomie kan worden gebruikt voor zowel de methode om concepten te rangschikken als voor de hiërarchische ordening die het resultaat is van het proces. Een dergelijke hiërarchische structuur of ordening en de activiteit om tot een dergelijke ordening te komen, wordt classificatie genoemd. Bijna alles kan worden georganiseerd of gestructureerd in een taxonomie: leven en levende organismen, gereedschappen, goederen, allerlei dingen, boeken, topografie, administratieve structuren, evenementen, enz.

Taxonomie in technologie

In de informatica ontstaat de behoefte aan meer en meer gangbare terminologie in systemen en databases, inclusief voor de integratie van gegevens uit verschillende systemen en voor de unieke uitwisseling van productgegevens, zoals e-business-systemen en kennis-gedreven ontwerpen. Om dit mogelijk te maken, wordt gebruik gemaakt van gestandaardiseerde definities van concepten, waarbij de termen zijn gerangschikt in een subtype-supertype hiërarchie of taxonomie. Deze structuur, naast een ander groot voordeel dat eigenschappen van supertypen worden overgenomen door subtypen.

Op het gebied van informatica en kunstmatige intelligentie worden de laatste jaren pogingen gedaan om taxonomie te creëren en te handhaven vanuit een reeks concepten. Een voorbeeld is de automatische classificatie van een groep documenten, bijvoorbeeld digitale bibliotheken. Het is opmerkelijk dat op dit gebied een onderscheid wordt gemaakt tussen taxonomie en typologie. Het verschil zit vooral in de manier waarop de classificatie tot stand komt. In een taxonomie schikt u een groep voorbeeldobjecten door ze te verdelen. De volgende stap is om na te gaan welke kenmerken een concept heeft en u plaatst het in een hiërarchie met behulp van overkoepelende functies. Dit proces geeft vorm aan de taxonomie.

Een typologie (in het algemeen) is een onderverdeling van een groep personen, omschrijvingen, objecten op basis van een aantal kenmerken. Bijv. De Nederlandse steden kunnen worden onderverdeeld in provincie of provincie (zoals steden in Limburg, Holland of steden in Noord-Brabant…) volgens bevolking. Steden met meer dan 500.000 inwoners, steden met een bevolking van 250.000 – 500.000 of andere combinaties.

De meeste groepen objecten kunnen op verschillende manieren worden geclassificeerd. Sommige typologieën worden echter als beter beschouwd dan andere. Een typologie met lege categorieën (bv. Steden in Limburg met meer dan 500.000 inwoners) kan als een zwakke typologie worden beschouwd. Aan de andere kant zorgen te veel objecten in een categorie ook voor een slechte typologie.

De termen, typologie, classificatiesysteem en taxonomie kunnen als synoniem worden beschouwd. In de domeinen psychologie, informatica / kunstmatige intelligentie wordt het onderscheid tussen deze termen gemaakt. Het verschil zit hem in de manier waarop ze zijn gemaakt; taxonomie (empirisch) of typologie (conceptueel).

Het is mogelijk dat concepten die gerelateerd zijn in een typologie, geen relatie hebben in een taxonomie. Stel dat je een typologie definieert van dingen die je meeneemt als cadeau voor een bezoek van een zieke collega, dan verwacht je begrippen als appels, peren, bloemen en kruiswoordpuzzeltijdschriften.

Het is niet waarschijnlijk dat u die concepten in een taxonomie gecombineerd vindt.

Een folksonomy is een systeem waarin gebruikers openbare tags toepassen op online items, meestal om hen te helpen die items opnieuw te vinden. Deze praktijk wordt ook wel collaboratieve / sociale tagging, sociale classificatie of sociale indexering genoemd.

Folksonomy (toen het werd “uitgevonden”) was origineel “het resultaat van persoonlijke gratis tagging van informatie voor eigen gebruik. De grens tussen folksonomy en social tagging (tags in een open online omgeving waar de tags van andere gebruikers beschikbaar zijn voor anderen) wordt vaag. Folksonomy wordt vaak gebruikt in coöperatieve en samenwerkingsprojecten, zoals onderzoek, opslagplaatsen voor inhoud en sociale bladwijzers.

De term folksonomie is een mix van de woorden folk en taxonomie.

Als u taxonomie definieert als een manier van beheerde metadata, is folksonomie het tegenovergestelde, het is slechts een container met termen zonder volgorde, maar als u het gebruik van elke term kunt afleiden, kunt u betekenisvolle termen voor een organisatie vinden en als u de folksonomie bewaakt, bevorder woorden naar de taxonomieën.

Voorbeelden:

  • Twitter-hashtags
  • Instagram
  • WordPress

In veel systemen of (social media) platforms  kunnen folksonomieën worden gepresenteerd in tagwolken.

In klassieke zin is een thesaurus een soort referentie. Een thesaurus wordt gebruikt om het exacte woord voor een object, een bepaalde technische term of een woord met de gewenste connotatie te vinden (stijloverwegingen).

In moderne tijden is het een hulpmiddel waarmee unieke concepten worden verbonden door hiërarchische equivalente en associatieve relaties. De term komt uit het Grieks en betekent schat. Het werd aanvankelijk in de taalkunde opgericht als een logisch-systematisch (en alfabetisch, maar niet verklarend) woordenboek: de concepten van taal werden gecategoriseerd en vergeleken met gerelateerde concepten:

  • Synoniemen; woorden die een vergelijkbare betekenis hebben. Soms gebruiken mensen de term datadictionary als synoniem voor thesaurus
  • Hyperoniemen; woorden die een breder concept beschrijven. Lexicon heeft een ruimere betekenis dan een thesaurus.
  • Hyponiemen; woorden die een smallere betekenis hebben. Synoniemenlijst heeft een engere betekenis dan een thesaurus,
  • Antoniemen; woorden met de tegenovergestelde betekenis.

De term “thesaurus” wordt ook gebruikt voor een naslagwerk met een gespecialiseerd vocabulaire binnen een bepaalde interesse of beroep, zoals geneeskunde of muziek. Met behulp van een thesaurus maakt de catalogus van bijvoorbeeld een bibliotheek deze toegankelijker dan door middel van een uiteindelijk arbitraire opstelling.

Voor categorisering en verwijzing is men niet strikt gebonden aan de termen (en de taal) van een boek of andere media zoals video of geluid die geen tekst of metadata bevatten.

Een thesaurus kan zelfs meerdere termen per publicatie of informatie-item toekennen.

Thesaurus

Ontologie

In de informatica en logica is een ontologie het resultaat van een poging om een compleet en strikt conceptueel schema over een bepaald onderwerp of domein te definiëren. Het woord ontologie is een term die in de filosofie wordt gebruikt.

Een ontologie is typisch een datastructuur, die alle relevante entiteiten en hun relaties binnen de regels van het domein beschrijft. Op het gebied van kunstmatige intelligentie wordt het concept ontologie gebruikt om de ‘echte wereld’ te beschrijven op een manier die een computer kan bevatten. Een andere manier om het te omschrijven is kennisrepresentatie.

In een semantisch web moet een computer de betekenis van tekst of metadata uit een model afleiden en op basis van die informatie redenering, effect of conclusie berekenen.

Een ontologie wordt gebruikt als een strikt en compleet model voor een bepaald domein, meestal in een hiërarchische structuur, met daarin alle relevante eenheden en hun relaties en de regels waaraan deze eenheden en relaties moeten voldoen.

Canoniek model

Een term die wordt gebruikt in datamodellering, maar die op zichzelf moeilijk te definiëren is.

Woorden die het concept benaderen

  • Typisch
  • Normaal gesproken

Een gestandaardiseerde manier van weergeven. Volgens erkende, aanvaarde regels. Het is ook een bijvoeglijk naamwoord wat betekent dat het onderwerp in overeenstemming is met de canon, de regels (oorspronkelijk kerkelijke wetten). Canonieke kwesties zijn zo geloofwaardig, en dat geldt ook voor een canoniek model.

CANONIEK GEBRUIKT IN INFORMATIEARCHITECTUUR

Informatiearchitecten praten vaak over canonieke modellen die de werkelijkheid opsplitst in concepten en relaties. Een model maakt de werkelijkheid zichtbaar. Een canoniek model is een duidelijk conceptueel model dat is ontworpen op basis van een gestandaardiseerde en gemeenschappelijke benadering van iets in een bepaalde context (een stukje realiteit) met het resultaat.

  • Duidelijkheid
  • Standaardisatie
  • Gemeenschappelijke uitstraling
  • Context

canoniek model is ondubbelzinnig en verklaart daarom slechts op één manier. De betekenissen van de concepten in het model zijn gebaseerd op een algemeen aanvaarde norm. Bedenk een typische beschrijving van een auto. Een auto is een heel complex iets, maar het model van “auto” volgen is vrij universeel.

Het model brengt de complexiteit van de auto terug naar enkele belangrijke concepten die met elkaar verband houden. Een typische auto heeft een carrosserie, een motor, een stuur, een vooras met twee wielen en een achteras met twee wielen. Het stuur is verbonden met de vooras en de motor drijft een van de assen of beide tegelijk aan. Dit model typeert een auto. Elke auto voldoet aan dit model. Inderdaad, driewielers niet, dus het model is niet universeel, maar binnen de context van een autofabrikant die alleen voertuigen met vier wielen produceert.

Een canoniek model vereenvoudigt de communicatie over dingen in een bepaalde context (bijvoorbeeld een bedrijf). Iedereen binnen die context die het model wel kent, weet wat er wordt bedoeld als de concepten in dit model worden besproken. Het voorkomt, zeiden vrij simpele misverstanden. Het model is immers ondubbelzinnig.