Onlangs postte ik een bericht over de langste zin van 2021 uit de database van de rechtspraak.
Die post kreeg nogal wat aandacht: het gebruik van #klaretaal wordt belangrijk gevonden, en terecht. Hoe zit het met de leesbaarheid van gerechtelijke uitspraken? Ik heb een analyse gemaakt.
Data
Van alle uitspraken uit de database heb ik eerst de overwegingen van de rechter gefilterd van:
- de aanhef (opsomming partijnamen etc.);
- de “expositie” (de passage waarin de rechter het procesverloop, de feiten, de (rechts)vragen en de standpunten uiteenzet);
- de beslissing zelf; en
- eventuele bijlagen.
Dat filteren heb ik gedaan op basis van patroonherkenning (regular expressions). Dat gaat in 90% van de gevallen wel goed. Ik hou dan de overwegingen van ongeveer 45.000 uitspraken over. Die overwegingen zijn onderverdeeld in alinea’s. Elke alinea bestaat weer uit één of meer zinnen. Ik heb als criterium genomen: een alinea is pas een alinea als die een bepaalde lengte heeft (25 tekens) en een zin is pas een zin als die zin ook een bepaalde lengte heeft (ik heb de minimumlengte op 3 woorden gezet).
Met deze criteria heb ik alle zinnen onder elkaar gezet. De zinnen heb ik vervolgens gespecificeerd naar hoofdrechtsgebied: bestuursrecht, civiel recht en strafrecht (het rechtsgebied “overig” heb ik geschaard onder bestuursrecht). Ook heb ik een onderscheid gemaakt naar instantie: de uitspraken met instantie “overig” in het civielrechtelijke rechtsgebied heb ik verwijderd.
Ik kom uiteindelijk op ongeveer 3,4 miljoen zinnen, ruim 77 miljoen woorden en 495 miljoen tekens.
Rechtsgebied | Instantie | Aantal zinnen |
bestuursrecht | hof | 97.056 |
bestuursrecht | hoge raad | 7.413 |
bestuursrecht | overig | 258.962 |
bestuursrecht | raad van state | 218.003 |
bestuursrecht | rechtbank | 772.482 |
civiel recht | hof | 390.111 |
civiel recht | hoge raad | 8.689 |
civiel recht | rechtbank | 631.661 |
strafrecht | hof | 197.155 |
strafrecht | hoge raad | 29.894 |
strafrecht | rechtbank | 790.562 |
Leesbaarheid
Hoe bepaal je de leesbaarheid van een tekst? Laten we eerst eens kijken naar het aantal woorden per zin. De rechtspraak had in de overwegingen gemiddeld 22,7 woorden per zin nodig, maar dat verschilt per rechtsgebied en per instantie:
Hoe lees je deze grafiek? De gekleurde “box“ vertegenwoordigt de helft van de zinnen. De streep in de box is de mediaan: ofwel de middelste waarneming. De breedte van de box is een indicatie voor het aantal waarnemingen. De strepen aan de onder- en bovenkant zijn de overige waarnemingen, minus de statistische outliers: voor zover deze de standaard-deviatie te buiten gaan. Die outliers zijn omwille van de duidelijkheid weggelaten.
Wat hier opvalt is dat de zinnen in strafzaken aanmerkelijk korter zijn dan in de andere rechtsgebieden. De zinnen van de Hoge Raad zijn veelal korter dan die in uitspraken van andere instanties. OnzeTaal streeft naar een zinslengte van tussen de 15 en 20 woorden, en vindt tot 25 woorden onder voorwaarden ook nog wel aanvaardbaar (bron: OnzeTaal). Maar 22,7 woorden als gemiddelde? Pfff.
Als je een score voor leesbaarheid wil geven dan is niet alleen het aantal woorden per zin relevant. Je kunt ook kijken naar aantal lettergrepen, aantal moeilijke woorden en aantal tekens per woord. Zo zijn er door taalkundige verschillende formules bedacht (voor nerds zoals ik ziehier een linkje) en daarmee heb ik de zinnen in de dataset geanalyseerd. De scores per formule komen redelijk overeen. De Coleman Liau-Indexformule (kijkt naar aantal tekens per woord en aantal woorden per zin) geeft de volgende uitkomsten:
Ook hier is verrassend dat de teksten van Hoge Raad aanmerkelijk leesbaarder zijn dan de teksten van andere instanties.
Klare taal-bokaal
Jaarlijks wordt de Klare taal-bokaal uitgereikt aan de rechters die de helderste uitspraken hebben gewezen. Waar zitten die uitspraken met hun score? Ik heb de winnende uitspraken per jaar even “met de hand” in de grafiek vermeld:
Vond je dit een interessante blog? Laat het mij weten! En als je vragen of opmerkingen hebt, dan hoor ik dat natuurlijk ook graag.