De evolutie van juridische zoekmachines: van trefwoorden naar semantiek

Het zoeklandschap is volop in ontwikkeling. Er vindt namelijk een verschuiving plaats in de manier waarop een zoekmachine zoekopdrachten interpreteert. Traditionele juridische zoekmachines zijn gebouwd op trefwoordmatching: ze doorzoeken databases op basis van exacte termen, synoniemen of thesaurus-gerelateerde woorden. Hoewel deze aanpak jarenlang voldeed, kent hij duidelijke beperkingen. De resultaten zijn vaak sterk afhankelijk van de formulering van de zoekopdracht, waardoor relevante documenten onvindbaar kunnen blijven als ze andere terminologie gebruiken.

Om er toch voor te zorgen dat zoekresultaten zo optimaal mogelijk blijven, heeft Legal Intelligence veel energie gestoken in het optimaliseren van deze trefwoordzoektechnologie. Zo is er door de jaren heen een uitgebreide thesaurus ontwikkeld van synoniemen en gerelateerde juridische zoektermen. Hiermee wordt de kans om een document te missen door ander woordgebruik zo klein mogelijk gehouden, terwijl de hoeveelheid irrelevante zoekresultaten zo laag mogelijk blijft.

Daarnaast hebben we onder leiding van Business Analyst en promovendus Gineke Wiggers, onderzoek gedaan naar het verbeteren van de ranking van zoekresultaten. Een belangrijke innovatie is de introductie van impactrelevantie,waarbij op basis van meerdere factoren de meest relevante documenten bovenaan worden getoond.

Semantisch zoeken: een nieuwe dimensie
Waar trefwoordmatching vooral afhankelijk is van exacte termen en synoniemen, doorbreekt semantisch zoeken deze beperking. In plaats van te zoeken naar de aanwezigheid van specifieke woorden, richt semantisch zoeken zich op documenten die dezelfde betekenis uitdrukken, ook als ze andere woorden gebruiken. Gebruikers kunnen hun zoekopdracht formuleren in natuurlijke taal, waarna de zoekmachine de intentie achter de vraag interpreteert en relevante documenten teruggeeft.

Vectorisatie door taalmodellen speelt hierin een cruciale rol. Met behulp van taalmodellen, zoals BERT of GPT wordt de betekenis van een tekst omgezet in een reeks getallen (vectoren). Bij het zoeken gaat de zoekmachine vervolgens vectoren vergelijken die dichtbij elkaar liggen, dus een overeenkomende semantische betekenis hebben.

Een voorbeeld: een jurist zoekt op “Wat zijn de gevolgen van een nietig contract bij consumentenkoop?” In een semantisch systeem wordt deze vraag omgezet naar een numerieke weergave, en vergeleken met de nummerieke weergave van documenten. De zoekmachine presenteert relevante uitspraken, wetsartikelen en commentaren, zelfs als deze niet letterlijk dezelfde woorden bevatten.

Praktijkvoorbeeld: AI Discovery van Wolters Kluwer
De AI Discovery-module van InView Legal combineert semantisch zoeken met generatieve AI. Deze architectuur heet Retrieval-Augmented Generation (RAG).

Stap 1: Semantisch zoeken
De vraag van de gebruiker in natuurlijke taal wordt omgezet in een vector en vergeleken met juridische content van Wolters Kluwer. Dit zorgt ervoor dat relevante bronnen worden opgehaald, zelfs als ze andere bewoordingen gebruiken.

Stap 2: Generatieve AI
Op basis van de gevonden bronnen genereert een taalmodel een antwoord. Dit is het Augmented Generation-gedeelte van het proces. Samen vormen ze RAG: Retrieval (semantisch zoeken) + Augmented Generation (antwoord genereren met context).

Het is belangrijk om dit onderscheid te maken. Semantisch zoeken is een zoektechnologie die relevante documenten identificeert. Generatieve AI is een taalmodel dat op basis van die documenten een antwoord formuleert.

Hybride zoekmodellen: trefwoorden, vectoren en kennismodellen
Semantisch zoeken is een krachtige ontwikkeling, maar de meest effectieve aanpak is vaak hybride. Hierbij worden traditionele trefwoordmatching en semantisch zoeken gecombineerd. In sommige gevallen wordt hier ook zoeken via kennismodellen (knowledge graphs) aan toegevoegd. Trefwoordmatching zorgt voor snelle en precieze matching op bekende termen, vector zoeken biedt contextuele interpretatie van natuurlijke taal, en kennismodellen leggen verbanden tussen juridische concepten, zoals wetten, jurisprudentie en doctrine.

Deze hybride benadering helpt juristen niet alleen relevante documenten te vinden, maar ook om juridische relaties en implicaties beter te begrijpen.

De nieuwe standaard in juridisch zoeken
De juridische zoekmachine transformeert van een tool gedreven door trefwoorden naar een semantisch en contextueel intelligent systeem. Deze evolutie biedt enorme kansen voor juristen: sneller relevante informatie vinden door beter aan te sluiten bij hun werkproces. Door semantisch zoeken en hybride modellen te combineren met de door Legal Intelligence ontwikkelde rankingalgoritmes, ontstaat het beste van twee werelden: relevante documenten worden niet alleen snel gevonden, maar ook optimaal benut in generatieve toepassingen.

Generatieve AI ontwikkelt zich razendsnel en biedt juristen enorme ondersteuning in hun dagelijkse praktijk. Taalmodellen zoals bij RAG functioneren het best wanneer ze gevoed worden met de juiste documenten, en precies daar spelen de beschreven zoektechnologieën een cruciale rol. Legal Intelligence zet zich actief in voor de doorontwikkeling van deze zoektechnologieën en is jouw betrouwbaar partner in juridisch onderzoek.

LinkedIn