White paper Legal Intelligence ranking

Maart 2018 – mr. G. Wiggers, dr. T.E. de Greef

Introductie

Na het invoeren van een zoekopdracht toont Legal Intelligence de zoekresultaten in een lijst. Deze resultaten worden gepresenteerd in de volgorde waarvan Legal Intelligence denkt dat deze het beste aansluit bij de behoeften en wensen van de gebruikers. De volgorde waarin resultaten gepresenteerd worden noemen wij de ranking. Deze ranking is opgebouwd uit een vijftal regels wiens score bij elkaar opgeteld wordt en deze white paper legt deze opbouw uit. Deze white paper gaat specifiek in op de ranking. De zoektechnologie in den brede wordt toegelicht in het white paper getiteld ‘zoektechnologie Legal Intelligence’. Hieronder wel twee zaken over de algemene zoektechnologie die relevant zijn voor de opbouw van de ranking: 1. Wanneer een gebruiker een zoekopdracht invoert in Legal Intelligence, wordt deze geanalyseerd. Het Legal Intelligence systeem kijkt of het synoniemen of onderliggende termen van de zoektermen kent, of dat de zoekopdracht een wetsartikel of vindplaats bevat. 2. Wanneer de zoekopdracht een synoniem (bijv. ‘artikel 6:162 BW’ voor ‘onrechtmatige daad’,) of een thesaurusterm (bijv. ‘eerste kerstdag’ voor ‘officieel erkende feestdag’) bevat, dan zal het systeem ook resultaten weergeven die deze woorden bevatten.

1. Aanwezigheid van zoektermen

Voor elk resultaat geeft het zoeksysteem een score op basis van een aantal factoren:

  • Hoe vaak de zoektermen in het document voorkomen, en waar in het document deze staan. Wanneer de zoektermen in de titel of de samenvatting staan, wordt er een hoger gewicht toegekend dan wanneer deze verderop in de tekst staan.
  • Indien een zoekopdracht meerdere termen bevat, dan zal een document waarin alle termen meermaals voorkomen, meer gewicht krijgen dan een document waarin één term vaak voorkomt, maar de overige termen slechts eenmaal.
  • Bij een gelijk aantal keer voorkomen krijgen de gezochte termen in een korter document een groter gewicht dan in een langer document.
  • Woorden die in de gehele database van Legal Intelligence minder voorkomen, worden geacht zeldzamer te zijn en krijgen meer gewicht dan woorden die in veel documenten voorkomen. Dit omdat veel voorkomende woorden vaak algemenere woorden zijn, terwijl de zeldzame woorden de essentie van de zoekopdracht verwoorden.

Noot: de geïnverteerde index

De basis van elke zoektechnologie is een geïnverteerde index¹ wat op een slimme manier een lijst produceert waarin de voorkomens van de stampwoorden in de documenten bijgehouden worden. Deze wordt omgekeerd gesorteerd op basis van de frequentie van woorden, waardoor de minst voorkomende woorden descriptief zijn voor documenten en niet de meest voorkomende woorden.

2. Aanwezigheid van zoektermen

In aanvulling op de standaard score op basis van de aanwezigheid van de zoektermen wordt er ook een gewicht toegekend afhankelijk van de datum² van documenten. Recente documenten worden hierdoor hoger in de ranking getoond dan oudere documenten. Naar verloop van tijd neemt het toegekende gewicht af, zodat dit voor oudere documenten de ranking niet beïnvloedt. Het gewicht en het verloop is verder opgesplitst aan de hand van de bron. Zo is het gewicht voor boeken minder flexibel in vergelijking met documenten van de rechtspraak. Zie ook het figuur hieronder voor een visuele weergave hiervan.  

3. Rechtspraak

Aan documenten afkomstig van de Rechtspraak worden op basis van een aantal regels extra gewichten toegekend. Zo wordt extra gewicht toegekend wanneer deze voorzien zijn van een annotatie. Daarnaast wordt er gekeken naar de instantie. Documenten van hogere officiële organen (bijvoorbeeld de Hoge Raad, de Raad van State, het Hof van Justitie EU en het Europees Hof voor de Rechten van de Mens) krijgen een iets hoger gewicht toegekend. Documenten van lagere instanties (bijvoorbeeld de sector kanton van de rechtbank) krijgen iets lager gewicht toegekend. De overige documenten (bijvoorbeeld van gerechtshoven) blijven neutraal.

4. Wetgeving

Voor wetgeving wordt in de ranking meegenomen of deze in werking is. Wanneer wetgeving in werking is, krijgt deze meer gewicht toegekend, dan wanneer deze vervallen is.

 

Uitzondering
Er wordt geen gewichtsaanpassing toegepast bij voorkeursresultaten of wanneer gezocht wordt naar wetgeving met een specifieke geldigheidsdatum (de zogenoemde tijdreis-functie).

5. Degraderen

Sommige bronnen, zoals bijvoorbeeld Data Juridica, worden actief lager gezet omdat deze ongewenst hoog in de ranking kwamen. Voor Data Juridica bleek dit te komen doordat het systeem de lengte van het document meerekent, terwijl deze bronnen alleen korte verwijzingen bevat. Bronnen als deze krijgen daarom minder gewicht toegekend, om dit effect te neutraliseren.

6. Uitzonderingen

In een tweetal gevallen wordt er afgeweken van rankingsbepaling op basis van de beschreven vijf regels.
Uitzondering 1: Filtersuggesties Wanneer een zoekopdracht meerdere filters omvat (bijvoorbeeld een bronnaam en een instantie), dan wordt er niet automatisch gefilterd op alle filters, omdat dit vaak geen of erg weinig resultaten oplevert. In plaats daarvan worden deze filters als filtersuggesties getoond. De ranking van de zoekresultaten wordt dan zo ingericht dat resultaten die aan beide filters voldoen eerst worden getoond (in dit voorbeeld resultaten uit die bron afkomstig van die instantie), gevolgd door resultaten die aan één van de filters voldoen en vermelding maken van de bron of instantie uit het andere filter (bijvoorbeeld resultaten die uit de bron afkomstig zijn, maar verwijzen naar de instantie uit het filter), gevolgd door resultaten die vermelding maken van beide filters (resultaten die niet afkomstig zijn van de genoemde bron, noch van de genoemde instantie, maar die beide vermelden). Uitzondering 2: Voorkeursresultaten Wanneer een zoekopdracht een wetsartikel, een roepnaam van een arrest (bijvoorbeeld ‘Haviltex’), of een vindplaats van een arrest (bijv. een ECLI nummer) of artikel (bijv. NJ 2015/123) bevat, dan zal het betreffende document als voorkeursresultaat worden getoond. Deze resultaten zijn te herkennen aan het *-icoon, en aan de gekleurde strepen boven en onder het resultaat. De voorkeursresultaten zijn niet gebonden aan de hierboven beschreven ranking. Omdat deze documenten zo’n sterke relatie hebben met de zoekopdracht worden deze altijd bovenaan getoond, ongeacht de frequentie van de zoekterm, het documenttype en de publicatiedatum. ¹ https://en.wikipedia.org/wiki/Inverted_index

² Voor artikelen wordt gekeken naar de publicatiedatum, voor uitspraken de vaststellingsdatum, en voor wetgeving de datum van inwerkingtreding.