Lucia de B op de brandstapel dankzij elk statistisch fout uit het boekje

Screwed up statistics condemn nurse Lucia de B

Recent uncovered evidence shows that nurse Lucia de B has been convicted of murder on the basis of statistical arguments only and by abusing just about every rule in the book.

 * Whether or not an incident was classified as suspect depended on whether or not Lucia was on duty (simply a question of checking which nurse is on duty and then asking enough doctors till you get a "suspicious" verdict

* Data was collected in this way till there was enough to condemn her

* A professor of statistics in law, and trained mathematician, does not know the meaning of one of the most basic statistical concepts – the p-value. (Statistician Henk Elffers multiplied three independent p-values in order to obtain a combined p-value).

It somehow reminds me of the old method to see if someone is a witch – if they drown they were innocent, if they are guilty you can burn them

The statisticial profession in the Netherlands, myself included, is deeply shamed that *no-one* has enquired how the data was gathered… this took many years and a philosopher to ask that question …. 

Incredible that a mass murderer could kill ten or more people in a hosptial while simultaneously taking care that the number of unexplained deaths was lower than usual…

Peter Grünwald has put it all very elegantly in an email to me, in Dutch, but I’ll add an English translation as soon as possible.


Beste Richard,

Ik weet niet of je het Nederlandse nieuws volgt, maar misschien heb je
wel gehoord dat er redelijke kans is dat de zaak Lucia de B. heropend
gaat worden. De zaak is aanhangig gemaakt door Ton Derksen bij de
commissie Posthumus-II die over dit soort zaken gaat. Ton Derksen
(hoogleraar wetenschapsfilosofie) deed dit op basis van zijn boek "Lucia
de B. : reconstructie van een gerechtelijke dwaling". Ik heb dit boek
gelezen, was diep onder de indruk, en sta nu in regelmatig contact met
Ton. De zgn. Toegangscommissie van die commissie Posthumus II heeft
positief geadviseerd, en er is nu een commissie van drie wijze mannen
(de eigenlijke onderzoekscommissie van de commissie Posthumus II) die
gaat besluiten of de zaak daadwerkelijk heropend moet worden. (misschien
denk je nu wel: he ik heb genoeg van Lucia, maar lees toch maar even
verder!)

Derksen laat overtuigend zien dat, in tegenstelling tot wat beweerd
werd, statistiek *wel* een cruciale rol in de zaak gespeeld heeft, ook
in hoger beroep. Het hof gebruikt indirect (zie eindnoot 1) wel degelijk
de volgende, statistische argumentatie: aanwezigheid van Lucia bij
zoveel incidenten kan geen toeval geweest zijn, er kan geen andere  
verklaring dan moord c.q. poging tot moord worden gevonden, dus het moet
wel om (poging tot) moord gaan.

Deze redenering raakt kant noch wal. Derksen begint zijn boek droogjes
met wat data: het aantal onverwachte sterfgevallen in de medium care
unit-I van het Juliana kinderziekenhuis van 1996-1998 (toen Lucia er
niet werkte) was 7. Het aantal onverwachte sterfgevallen in de evenlange
periode toen Lucia er wel werkte (1999-2001) was 6…. al deze doden
(wellicht op een na, zie eindnoot 2) werden in eerste instantie als
natuurlijk en niet-verdacht aangemerkt. Dus waarom moest er eigenlijk
uberhaupt aangifte gedaan worden? (ook het *percentage* sterfgevallen op
de medium care unit als percentage van het totaal aantal sterfgevallen
in het ziekenhuis is lager in de periode dat Lucia er werkte dan in de
periode daarvoor!) . Deze gegevens, die n.b. al aan het begin van de
zaak bij het OM bekend waren, zijn verder in de hele zaak niet gebruikt.
Dit is maar een van de zeer vele bommen onder de zaak. Een andere is dat
in ALLE gevallen waarvoor Lucia veroordeeld is, er zowel medische
experts waren die zeiden dat het om een volstrekt natuurlijke dood ging,
als experts die zeiden dat dat niet zo was; in sommige gevallen zijn die
laatsten in de meerderheid. Er gebeurt in een bepaald geval letterlijk
dit: als expert A in geval 1 zegt natuurlijk en in geval 2 onnatuurlijk,
en expert B zegt het omgekeerde, dan wordt in geval 1 naar B geluisterd
en in geval 2 naar A. Een derde bom is dat een van de experts die in de
"bewezen" moord "onnatuurlijke dood door vergiftiging" zei, daar nu
spijt van blijkt te hebben en er "slapeloze nachten" van heeft (Maarten
‘t Hart heeft hierover in de NRC geschreven). Overigens gaan vrijwel
alle incidenten over patienten die zeer ernstig ziek waren, precies het
soort patienten dat weleens ‘zomaar’ sterft (dat werd destijds in de
media ook niet echt duidelijk gemaakt).

De vierde en vanuit de statistiek gezien potentieel belangrijkste bom is
dat de beschikbare cijfers over coincidentie van Lucia bij verdachte
incidenten waarschijnlijk gewoon NIET KLOPPEN. Uit correspondentie
blijkt dat het OM stelselmatig naar incidenten tijdens Lucia’s diensten
gezocht heeft, maar niet stelselmatig naar incidenten die plaatsvonden
als Lucia geen dienst had (zie eindnoot 3). Dit maakt de gehele
statistische analyse natuurlijk onbetrouwbaar. De gebruikte statistiek
vertoont ook een (flink) aantal mankementen. Zoals je weet gebruikt
Elffers een Fisher exact toets, maar hij doet iets vreemds: hij heeft
data uit drie afdelingen van twee ziekenhuizen, en hij vermenigvuldigt
de drie corresponderende p-waarden met elkaar. In je artikel met Meester
en Van Lambalgen en Collins is dat een van jullie vele kritiekpunten.
Het is natuurlijk volledig verkeerd; het zorgt ervoor dat de hypothese
‘Lucia is hetzelfde als andere zusters’ *vanzelf* verworpen wordt als ze
maar vaak genoeg van afdeling switcht; immers, bij elke
vermeningvuldiging wordt de p-waarde kleiner.

Stel nu dat je Elffers’ analyse opnieuw doet, maar nu alleen een
incident (=sterfgeval of reanimatie waarvoor niet direct een verklaring
werd gevonden) tijdens Lucia’s dienst meetelt als *het hof bewezen acht
dat Lucia schuldig is aan het incident* en als je alleen kijkt naar
diensten die *in de door Elffers bekeken periode* plaatsvinden. Als je
Fisher’s toets gebruikt met deze data, en alle data op een hoop gooit
(dus je maakt geen onderscheid tussen de ziekenhuizen/afdelingen en je
vermenigvuldigt de deelkansen niet), dan krijg je een "kans" (p-waarde)
van ongeveer 1 op 550. Dit is ruimschoots onder het door Elffers’
gekozen significance level van 1 op 10000. Er zijn 60000
verpleegkundigen in Nederland dus dan lopen er misschien wel meer dan
100 Lucia’s rond.

Je zou kunnen zeggen dat je ook de gevallen waarvoor Lucia is
vrijgesproken wegens gebrek aan bewijs moet meenemen in de statistiek;
daar staat tegenover dat voor de meeste van die incidenten geen enkele
aanwijzing bestaat dat Lucia er iets mee te maken had; dat er wellicht
een aantal incidenten buiten Lucia’s dienst valt die gewoon niet
opgemerkt zijn door het OM (zie eindnoot 3); en dat er bij het
selecteren van data een aantal verdere keuzes is gemaakt die erg nadelig
uitpakken voor Lucia. Om maar een voorbeeld te noemen (een ander
voorbeeld staat in eindnoot 4): de indeling in Lucia- en niet-Lucia
incidenten waar het getal van 1 op 550 gebaseerd is bevat nog steeds
twee gevallen waarvan het eerste hoogst, en het tweede nogal
twijfelachtig is (zie eindnoot 5). Als we het eerste geval "juist"
plaatsen,  komen we op een p-waarde van 1 op de 390. Als we het tweede
geval "juist" plaatsen, komen we op 1 op 94.

Het OM en de Wijze Mannen accepteren dat eventuele extra data
(incidenten buiten Lucia’s dienst) meegenomen zouden moeten worden. Als
Derksen de drie wijze mannen ook nog kan overtuigen dat vermenigvuldigen
in Fisher’s toets niet toegestaan is, dan kom je dus op een p-waarde
ergens tussen 1 op 550 en 1 op 94 uit, en valt een van de belangrijkste
pijlers van het bewijs weg. Derksen en ik vinden allebei dat Elffers
methode in nog veel meer opzichten niet klopt (verkeerde correctie voor
hergebruik van data, geen rekening houden met het sampling plan, etc.).
Maar dit is zeer omstreden; dat vermenigvuldigen verkeerd is, lijkt niet
omstreden. Daarom lijkt Derksen de volgende strategie verstandig:
Derksen vertelt de wijze mannen dat, zelfs ALS je Elffers methode in
beginsel accepteert, je p-waardes niet mag vermenigvuldigen, en je het
natuurlijk op de juiste data moet uitvoeren (dat laatste, daar is zelfs
Elffers het mee eens). En als je p-waardes niet vermenigvuldigt en de
juiste data gebruikt, dan kom je op een p-waarde van maximaal 1 op de
551 uit *als je de data op een manier kiest die zo nadelig mogelijk voor
Lucia is*. Dat is nou niet bepaald dramatisch. Maar nu vroeg ik me af of
ook jouw naam hier misschien bij mag staan – een van de bekendste
Nederlandse statistici, en lid van de KNAW. Dat zou zeker helpen. De
vraag is dus: ben jij misschien hiertoe bereid? Normaal ben ik nooit
zo’n zeloot, maar als je de rechtsgang in deze zaak bekijkt, dan rijzen
je de haren werkelijk te berge. Als ook maar een klein deel van wat
Derksen vermeldt waar is, dan is hier gewoon (in de woorden van Maarten
‘t Hart, die zich er ook mee is gaan bemoeien) een ouderwets
”heksenproces” gevoerd.

Veel Groeten, Peter
————————————————————————–
Postscriptum: omdat je dit graag op je blog wil zetten, heb ik een
aantal verduidelijkende eindnoten toegevoegd:

1. Het hof schrijft bijvoorbeeld:
11.13
Er is geen enkele aannemelijke verklaring gevonden voor het
feit dat de verdachte in die korte periode bij zoveel
overlijdensgevallen en
levensbedreigende incidenten betrokken was.
Elffers (dat doet hij gelukkig weer wel goed!) wijst er in zijn rapport
op dat ‘niet met toeval verenigbaar’ niet betekent ‘Lucia heeft schuld’.
Er kunning tig andere verklaringen zijn, zoals bijv. Lucia heeft vaker
nachtdienst; en incidenten vinden nou eenmaal vaker ‘s nachts plaats. In
de text volgend op 11.13 gaat het hof in op een aantal van de door
Elffers’ genoemde mogelijke alternatieve verklaringen, en schrijft ze af
als ‘niet aannnemelijk’. Dit wijst erop dat hof wel degelijk Elffers
statistische analyse gebruikt hier, zij het impliciet. Ook op andere
plekken gebruikt het hof overwegingen zoals in 11.13, bijvoorbeeld

[…het is onbegrijpelijk …]
E. dat de* zeven* overlijdensgevallen en levensbedreigende incidenten
die in het Juliana Kinderziekenhuis hebben plaatsgevonden een
betrekkelijke korte periode bestrijken (18 september 2000 – 4 september
2001);
F. dat zes van deze overlijdensgevallen en levensbedreigende incidenten
op een gewone verpleegafdeling hebben plaatsgevonden en hiervoor geen
aannemelijke verklaring kan worden gevonden;

Ook het feit dat er maar bij twee incidenten "echte" bewijzen zijn (en
zelfs die zijn hoogst indirect, en inmiddels ook omstreden), terwijl
Lucia voor 10 incidenten (7 moorden en 3 pogingen tot) veroordeeld is,
wijst erop dat dit statistisch argument cruciaal is – anders heeft het
hof helemaal geen poot om op te staan.  Voor de zes onbewezen moorden
geldt: sommige – lang niet alle – experts (die er achteraf, soms jaren
na het geval zijn bijgehaald), denken dat het om onnatuurlijke dood
ging; er zijn inconsistenties in Lucia’s verklaringen over sommige
gevallen; in 1 geval is er een verdachte dagboekaantekening. Niemand
heeft Lucia ooit iets verdachts zien doen!
 
2.
Het geval Amber (een van de twee gevallen waarbij volgens het hof
Lucia’s schuld direct bewezen is; nu omstreden) is in eerste instantie
als natuurlijk aangemerkt, maar de dag daarna werd dat ingetrokken. In
eerste instantie werd aan een kaliumvergiftiging gedacht. Een jaar later
verdwijnt dat uit beeld, en wordt het ineens een digoxinevergiftiging.
In ieder geval was dit wel  een geval (het enige!) waarbij artsen meteen
dachten dat er iets vreemds is gebeurd, en niet pas achteraf.

3.
Zie pagina 131 van het boek van Derksen: in een brief van 21-1-04
schrijft brigadier Spaans dat een vijftal onderzoeken
‘in opdracht van de officieren van justitie Mr. Degeling en Remmerswaal
/niet zijn voortgezet,/’ omdat ‘ten aanzien van genoemde patienten niet
is gebleken dat de verdachte enige betrokkenheid had bij het overlijden
of een eventueel incident.’

Het gaat hier om incidenten in de Medium-Care unit 2 van het Juliana
Kinderziekenhuis; Lucia werkte in MC-unit 1, maar die was op dezelfde
gang, dus echt vlakbij. Het OM heeft Lucia dan ook in eerste instantie
ook aangeklaagd voor een aantal zaken op MC-unit 2, maar ze is voor geen
enkele van deze zaken veroordeeld. Elffers’ statistiek maakt geen
gebruik van de data van MC-unit 2. Er is daarom volgens mij geen echt
"bewijs" dat het niet-optekenen van niet-Lucia incidenten ook heeft
plaatsgevonden in de afdelingen waarop Elffers’ cijfers gebaseerd zijn
(MC-unit 1, twee afdelingen van het Rode Kruis Ziekenhuis).
Desalniettemin geeft bovenstaande citaat te denken!

4.
Omdat het OM Lucia wel degelijk beschuldigde van incidenten op MC-unit
2, en MC-unit 2 binnen Lucia’s "bereik" lag (zie hierboven), had de data
van MC-unit 2 volgens mij meegenomen worden. Er zijn daar minstens twee
gevallen bekend van incidenten waarbij Lucia *niet* aanwezig/betrokken was.

5.
Het gaat hier om twee gevallen die niet tijdens Lucia’s dienst
plaatsvonden, maar kort (binnen een uur) erna. Strikt genomen zouden die
zowiezo niet meegeteld moeten worden als Lucia-incidenten; als men ze
wil meetellen, moet men op de een of andere manier Lucia’s diensttijden
verruimen en dat veranderd de hele analyse. Het eerste van de twee
gevallen is een incident waarvoor Lucia geheel en al is vrijgepleit; er
wordt geen enkele betrokkenheid bij de zaak vermoed. Dit  incident  komt
niet voor in de tabel die tot 1 op 550 leidt. Als je het er wel inzet
als incident buiten Lucia’s dienst (en dat lijkt me geheel
gerechtvaardigd), kom je op 1 op de 390. Het tweede geval gaat om een
incident waarvan het hof Lucia’s schuld bewezen acht, maar dat kort na
Lucia’s dienst plaatsvindt. Het staat nu als Lucia-incident in de tabel.
Zoals gezegd, als je dit soort gevallen wilt meetellen zou je de hele
analyse moeten veranderen. Daarom stelt Derksen voor het hele incident
uit de tabel te verwijderen, en dus nog als ‘Lucia-incident’, noch als
‘niet-Lucia-incident’ aan te geven. Je krijgt dan een p-waarde 1 op 94.
Ik kan me voorstellen dat je over dit tweede geval kunt twisten.

Be Sociable, Share!

2 thoughts on “Lucia de B op de brandstapel dankzij elk statistisch fout uit het boekje

  1. Zojuist, 17 nov. 2008, het artiklel “Juristen brgrijpen wetenschappelijk bewijs niet” toegespeeld gekregen.
    Een reactie op het onderdeel Hirsch Balin die voor in rechtbanken optredende deskundigen een toelatingseis wil voorschrijven, dat deze juridisch geschoold en ervaren zouden moeten zijn.

    Dit is een kenmerkend niveau van werken. Veel meer zou de kwaliteit verhogen als in deze situaties alle rechters minimaal een exacte beta of B vooropleiding van niveau met succes hebben doorlopen.

    Nodig is ook meer bekendheid te geven aan gefundeerde kritiek op het functioneren van rechtspraak in ons land. Velen zullen daaraan kunnen bijdragen.
    de fouten die gemaakt worden zijn geen incidenten, maar berusten op structuur.

    Er bestaat zelfs decennialang intensieve samenwerking tussen gerechten en als bedrieger ontmaskerde deskundigen.

  2. Het is een verademing om te constateren dat er gelukkig nog mensen in dit land zijn die gewapend met hun specifieke beroepskennis het opnemen voor de slachtoffers van het totaal verrotte juridische systeem in Nederland, waar de heren magistraten al lang de begrippen ‘eerlijk’ en ‘waarheid’ uit hun vocabulaire geschrapt hebben en DÉ grondregel van het recht, “wettig en overtuigend èn zonder enige twijfel bewezen”, zijn deze heren ook al heel lang vergeten. Het laagste van het laagste is bij de zaak Lucia de B. bij zowel politie als justitie tevoorschijn gekomen. Dit en al die andere ‘affaires’ van de laatste jaren waarbij mensen aantoonbaar onschuldig, soms jaren in de gevangenis hebben gezeten, zorgt ervoor dat ik mij steeds dieper voor dit land ga schamen en dat ik mij meer zorgen maak door justitie ‘gepakt’ te worden, dan door een ‘normale’ crimineel!

    Heren Gill en Grünwald, bedankt voor alles dat U doet voor Lucia namens alle weldenkende mensen in dit land met een goed ontwikkeld rechtvaardigheidsgevoel.

Leave a Reply