Data-analyse van gerechtelijke uitspraken – Het begin

Sinds een aantal jaren publiceert rechtspraak.nl een deel van de uitspraken rechtsprekende instanties in het Koninkrijk der Nederlanden. Die uitspraken zijn eenvoudig te downloaden, en daarmee gemakkelijk te onderzoeken.

Sinds enkele jaren worden de gerechtelijke uitspraken in Nederland volgens een Europese standaard gepubliceerd: de European Case Law Identifier (ECLI). Elke uitspraak krijgt een unieke ECLI-code. De uitspraken worden bovendien gestructureerd aangeleverd in JSON-formaat. De computer kan dat formaat gemakkelijk herkennen.

Op dit moment zijn ongeveer 2,7 miljoen (Nederlandse) uitspraken als ECLI gepubliceerd, maar het overgrote deel daarvan heeft alleen maar metadata: de uitspraak zelf is niet gepubliceerd. Er zijn ongeveer 480.000 uitspraken integraal opgenomen in de Nederlandse ECLI-databank. Dat lijkt een heleboel, maar is maar een klein deel van alle uitspraken in Nederland. Alleen relevante uitspraken worden gepubliceerd (ziehier de criteria). Dat roept de vraag op of de gepubliceerde uitspraken een representatief beeld geven van de rechtspraak in Nederland. Onderzoekers Prins en Roest constateren dat dit niet het geval is:

De uitspraken die via rechtspraak.nl voor het brede publiek beschikbaar zijn, vormen slechts een klein deel van alle vonnissen en arresten die worden gewezen. Dat betekent dat applicaties die bij de data-analyse gebruik maken van online beschikbare uitspraken sowieso geen representatief beeld zullen geven.

Ik geloof niet dat ik het daarmee eens ben. Ik meen dat het beeld op bepaalde punten wel degelijk representatief is. Het grootste deel van de uitspraken betreft namelijk verstekzaken en andere bulk-uitspraken, die in veel opzichten niet relevant zijn voor de te stellen onderzoeksvragen. Wel is het van belang om voortdurend voor ogen te houden dat de dataset op veel punten niet per sé compleet is.

Waarom kijken naar uitspraken?

Het zit in de genen van de advocaat om uitspraken te bestuderen. En de nieuwste ontwikkelingen op het gebied van data-analyse, tekstmining en machine-learning bieden volop kansen voor de tech-savy om meer te weten te komen over uitspraken dan slechts op basis van de juridische opleiding en ervaring.

Het is onjuist (en ook wel een beetje naïef) om te veronderstellen dat de jurisprudentie in Nederland zodanig casuïstisch is dat deze niet kan worden geanalyseerd of kan worden ingezet in een machine-learning algoritme.

Exploratory Data Analysis

Je moet je data alleen wel goed voorbereiden. En daarvoor is nodig dat je naar de data kijkt. Voordat je machine-learning gaat toepassen, moet je het nodige werk verrichten op het gebied van wat men noemt Exploratory Data Analysis (EDA). Dat is niet zozeer een werkwijze, maar eerder een creatief proces van uitwisseling van observaties, hypotheses en (statistische) analyse. Het wordt wel omschreven als een filosofisch proces.

Bijvoorbeeld: als in een kolom met namen voor elke naam “dhr” of “mevr” staat, dan kun je gemakkelijk een tweede kolom maken met het geslacht. En een derde kolom met de naam zonder die voorvoegsels. En als de laatste voorletters van een man een M. is, dan is ie katholiek. Zo zit in een set van kolommen vaak veel meer informatie verscholen dan je op het eerste gezicht zou denken, maar de kans op fouten of onethische aannames is in deze fase heel groot. Denk aan causaliteit ten opzichte van correlatie (onjuiste aannames) en geboorteplaats ten opzichte van criminaliteitscijfers.

EDA is dus wat Koot en Bie noemen: “Kèkah, kèkah, en de rest d’r bèh dènku!”.

Met de uitkomsten van EDA kun je vervolgens statistiek bedrijven: welke rechtbank wijst de meeste verzoekschriften af? Of wat is de gemiddelde lengte van een uitspraak (in woorden) per rechtbank? Welke woorden komen in uitspraken over belastingzaken het meeste voor?

Er zijn zoveel “tools” beschikbaar op het gebied van natural language processing (NLP), dat het vinden van verbanden naar mijn overtuiging wel moet leiden tot inzichten die van nut kunnen zijn voor de juridische praktijk. Om een voorbeeld te geven: zit er een verband tussen de sentiment-score van een uitspraak in eerste instantie en de uitkomst van die zaak in hoger beroep? Als dat zo is, dan kan een voorspelling gedaan worden over de kansen in hoger beroep op basis van een uitspraak in eerste aanleg. Een uitspraak in eerste instantie die hoger scoort op de emotie “woede” dan in vergelijkbare zaken loopt een grotere kans om in hoger beroep te worden vernietigd als het hof doorgaans een gematigder toon hanteert.

Ziedaar het belang van data-analyse. In een volgende blog zal ik meer schrijven over de ecli-database zoals die als open data wordt aangeboden door rechtspraak.nl.

Geplaatst in ecli en getagd met , , , , , , , .

Eén reactie

  1. Pingback: De Ecli-database van rechtspraak.nl -

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *