Biais dans la sélection du jury?

14

Un ami représente un client en appel, après un procès pénal au cours duquel il semble que la sélection du jury ait été biaisée sur le plan racial.

Le jury était composé de 30 personnes, réparties en 4 groupes raciaux. L'accusation a utilisé des défis impératifs pour éliminer 10 de ces personnes de la piscine. Le nombre de personnes et le nombre de défis réels dans chaque groupe racial étaient respectivement:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

L'accusé était du groupe racial C et les victimes des groupes raciaux A et D, donc la préoccupation a priori est de savoir si le groupe C est sur-contesté et les groupes A et D sous-contestés. Juridiquement (IIUC; IANAL), la défense n'a pas besoin de prouver un parti pris racial, mais simplement de montrer que les données semblent indiquer un parti pris, ce qui impose alors à l'accusation d'expliquer chaque défi non racialement.

L'analyse suivante est-elle correcte dans son approche? (Je pense que les calculs sont bons.):

Il y a nCr (30,10) = 30 045 015 ensembles distincts de 10 membres du pool. De ces ensembles distincts, je compte que 433 377 ensembles comprennent à la fois (pas plus de 2 membres des groupes A et D combinés) et (pas moins de 4 membres du groupe C).

Ainsi, la probabilité d'atteindre le niveau observé de biais apparent en favorisant les groupes A et D par rapport au groupe C (où favoriser les moyens n'incluant pas dans l'ensemble des 10 défis) serait le rapport de ceux-ci, 433/30045 = 1,44%.

Ainsi, l'hypothèse nulle (pas de tel biais) est rejetée au niveau de signification de 5%.

Si cette analyse est méthodologiquement correcte, quelle serait la manière la plus succincte de la décrire à un tribunal, y compris une référence académique / professionnelle (c'est-à-dire pas Wikipédia)? Bien que l'argument semble simple, comment peut-on démontrer le plus clairement et le plus succinctement au tribunal qu'il est correct, et non pas des manigances?


Mise à jour: Cette question était considérée comme un argument tertiaire dans un mémoire d'appel. Étant donné la complexité technique (du point de vue de l'avocat) de la discussion ici et le manque apparent de précédent juridique, l'avocat a choisi de ne pas le soulever, donc à ce stade, la question est principalement théorique / pédagogique.

Pour répondre à un détail: je crois que le nombre de défis, 10, a été fixé à l'avance.

Après avoir étudié les réponses et commentaires réfléchis et stimulants (merci à tous!), Il semble qu'il y ait 4 problèmes distincts ici. Pour moi, au moins, il serait très utile de les considérer séparément (ou d'entendre les arguments pourquoi ils ne sont pas séparables.)

1) La prise en compte des races à la fois de l'accusé et des victimes, dans les contestations du jury, est-elle a priori préoccupante ? Le but de l'argument de l'appel serait simplement de soulever une préoccupation raisonnable, ce qui pourrait conduire à une ordonnance judiciaire selon laquelle l'accusation devrait indiquer la raison de chaque récusation individuelle. Cela ne me semble pas être une question statistique, mais plutôt une question sociale / juridique, qui est à la discrétion de l'avocat de soulever ou non.

2) En supposant (1), mon choix d'une hypothèse alternative (qualitativement: parti pris contre les jurés qui partagent la race de l'accusé, en faveur de ceux qui partagent la race des victimes) est-il plausible, ou est-il inadmissible post hoc ? De mon point de vue laïque, c'est la question la plus déroutante - oui, bien sûr, on ne la poserait pas si on ne l'observait pas! Le problème, si je comprends bien, est le biais de sélection: ses tests doivent prendre en compte non seulement ce jury, mais l'univers de tous ces jurys, y compris tous ceux où la défense n'a pas observé d'anomalie et n'a donc pas été tentée de soulever la question. . Comment aborder cela? (Par exemple, comment l'adresse test Andy cela?) Il semble, si je peux me tromper à ce sujet, que la plupart des répondants ne sont pas troublés par potentiellement post-hocTests unilatéraux de biais uniquement contre le groupe du défendeur. En quoi serait-il méthodologiquement différent de tester simultanément le biais pour les groupes de victimes, en supposant (1)?

3) Si l'on stipule mon choix d'une hypothèse alternative qualitative comme indiqué en (2), alors quelle est la statistique appropriée pour la tester? C'est là que je suis le plus intrigué par les réponses, car le rapport que je propose semble être un analogue légèrement plus conservateur du test d'Andy pour l'hypothèse alternative plus simple "biais contre C" (plus conservatrice car mon test compte également tous les cas plus loin) dans la queue, pas seulement le nombre exact observé.)

Les deux tests sont de simples tests de comptage, avec le même dénominateur (même univers d'échantillons), et avec des numérateurs correspondant précisément à la fréquence de ces échantillons qui correspondent aux hypothèses alternatives respectives. Alors, @whuber, pourquoi n'est-il pas aussi vrai pour mon test de comptage que pour celui d'Andy qu'il "peut être basé sur des hypothèses nulles [identiques] et alternatives [telles que décrites] et justifiées en utilisant le lemme de Neyman-Pearson"?

4) Si l'on stipule (2) et (3), y a-t-il des références dans la jurisprudence qui convaincraient une cour d'appel sceptique? D'après les preuves à ce jour, probablement pas. De plus, à ce stade de l'appel, il n'y a aucune possibilité pour un "témoin expert", donc les références sont tout.

JD March
la source
Question mise à jour (annexée) après avoir étudié les réponses et les commentaires.
JD March
Merci pour un excellent résumé! Pour répondre au point (3), ma préoccupation est que votre test (si je le comprends bien) adopte une hypothèse alternative qui était motivée par les données elles-mêmes. Il semble donc avoir été construit a posteriori pour que les résultats paraissent aussi solides que possible. Un test qui est basé sur la classe d'alternatives prévisible et pertinente la plus large possible a priori , et mené avec une région de rejet Neyman-Pearson, a une base logique plus solide et est moins sujet à des critiques qu'il a néanmoins été proposé après avoir vu les données.
whuber
Merci, @whuber, c'est une critique plausible et utile - très bien ce que je demandais depuis le début. Mais cela ne ferait-il pas échouer mon (2), même avant (3)? Si c'est le cas, alors mon (3) semble être encore sans réponse - c'est-à-dire que ce serait une bonne statistique si l'on stipulait (2)?
JD

Réponses:

7

Voici comment je pourrais aborder la réponse à votre question à l'aide d'outils statistiques standard.

Voici les résultats d'une analyse probit sur la probabilité d'être rejeté étant donné l'appartenance au groupe du juré.

Tout d'abord, voici à quoi ressemblent les données. J'ai 30 observations de groupe et un indicateur binaire rejeté:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

Voici les effets marginaux individuels ainsi que le test conjoint:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Ici, nous testons les hypothèses individuelles selon lesquelles les différences de probabilité d'être rejeté pour les groupes A, C et D par rapport au groupe B sont nulles. Si tout le monde était aussi susceptible d'être rejeté que le groupe B, ce serait zéro. Le dernier élément de résultat nous indique que les jurés des groupes A et D sont moins susceptibles d'être rejetés, tandis que les jurés du groupe C sont plus susceptibles d'être refusés. Ces différences ne sont pas statistiquement significatives individuellement, bien que les signes concordent avec votre conjecture de biais.

Cependant, nous pouvons rejeter l'hypothèse conjointe selon laquelle les trois différences sont toutes nulles à .p=0,0436


Addenda:

Si je combine les groupes A et D en un seul car ils partagent les races des victimes, les résultats probit deviennent plus forts et ont une symétrie sympa:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Cela permet également à Fisher de donner des résultats cohérents (mais toujours pas à 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060
Dimitriy V. Masterov
la source
Merci beaucoup! Pourriez-vous m'aider à comprendre les problèmes méthodologiques ici? En particulier, (1) les tests de comparaison non dirigés (IIUC) malgré les particularités de la préoccupation a priori , et (2) les raisons d'utiliser un test qui fait des hypothèses de distribution plutôt que de simples arguments combinatoires?
JD
Je ne suis pas sûr de comprendre (1). Pour (2), j'obtiens des résultats très similaires avec un modèle logit, qui fait différentes hypothèses de distribution, donc il y a une certaine robustesse. Il n'y a pas assez de données pour faire quelque chose de moins paramétrique, bien que ce soit ma propre ignorance dans ce domaine.
Dimitriy V. Masterov
1
Re (1). Ce que je veux dire, c'est - il semble que votre test soit à 2 queues, alors que la préoccupation a priori autoriserait 1 queue?
JD March
1
Un aspect de cette analyse qui me met mal à l'aise est que sa signification apparente (au niveau de 5%, de toute façon) est due non seulement aux défis rencontrés dans le groupe C mais aussi à la rareté relative des défis dans le groupe A. Ce dernier semble être hors de propos: aurait-il été suspecté a priori ? Le rôle privilégié du groupe C est évident (en faisant correspondre le groupe du défendeur), mais un rôle privilégié pour tout autre groupe - ou même des inégalités (hypothétiquement) évidentes entre les autres groupes - ne semble pas avoir d'incidence sur la prétention du défendeur discrimination à leur encontre fondée sur leur groupe .
blanc
BTW, il semble que vous ayez effectué une analyse du groupe B plutôt que du groupe C.
whuber
3

Je pense que l'introduction d'une méthode statistique ad hoc sera un refus pour le tribunal. Il vaut mieux utiliser des méthodes qui sont une «pratique standard». Sinon, vous aurez probablement à prouver vos qualifications pour développer de nouvelles méthodes.

Pour être plus explicite, je ne pense pas que votre méthode répondrait à la norme Daubert. Je doute également beaucoup que votre méthode ait une référence académique en soi. Il faudrait probablement emprunter la voie de l'embauche d'un témoin expert en statistique pour le présenter. Je pense que cela serait facilement contré.

La question fondamentale ici est probable: "La contestation par un jury était-elle indépendante du groupe racial?"

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

L'utilisation du test exact de Fisher donne des résultats similaires:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

La remarque sur l'hypothèse à deux faces s'applique au cas d'un 2×2

Mon interprétation est qu'il n'y a pas beaucoup de preuves pour soutenir un parti pris racial.

jvbraun
la source
1
χ2
Merci, @jvbraun, votre argument sur l'interdiction des méthodes ad hoc semble convaincant; bien que compter et diviser ne me paraissent pas particulièrement excentriques, il est clair que d'autres ne le trouvent pas convaincant!
JD mars
C'est en fait l'un des cas dans lesquels les marginaux sont fixes, donc le test exact de Fisher devrait être plus acceptable pour beaucoup. Dans votre discussion sur Daubert, vous avez un peu reculé, une fois que vous appelez un expert, il fait l'objet d'une motion Daubert. (Ironiquement, certains ont fait valoir que les profanes présentant des statistiques ne sont pas soumis à de telles évaluations dictées par la règle 702.) L'OMI tous les arguments présentés ici sont bien articulés et ne seraient probablement pas jugés irrecevables. Je doute qu'aucune de ces techniques statistiques ait une jurisprudence dans ces circonstances particulières.
Andy W
χ2
χ22/24/6
3

J'ai déjà posé une question similaire (pour référence ici est le cas particulier que je discute). La défense doit simplement montrer un cas prima facia de discrimination dans les contestations Batson (en supposant que le droit pénal américain) - donc les tests d'hypothèse sont probablement un fardeau plus lourd que nécessaire.

Donc pour:

  • n=30 personnes sur le panel venire
  • p=6
  • k=4
  • d=10

La réponse précédente de Whuber donne la probabilité que ce résultat particulier soit dicté par la distribution hypergéométrique :

(pk)(npdk)(nd)

Ce que Wolfram-Alpha dit égal dans ce cas:

(64)(306104)(3010)=7611310.07

Malheureusement, je n'ai pas de référence en plus des liens que j'ai fournis - j'imagine que vous pouvez trouver une référence appropriée pour la distribution hypergéométrique à partir de la page Wikipedia.

Cela ignore la question de savoir si les groupes raciaux A et D sont "sous-contestés". Je suis sceptique que vous puissiez faire un argument juridique à ce sujet - ce serait une torsion étrange sur la clause d'égalité de protection, Ce groupe particulier est trop protégé! , que je ne pense pas serait voler. (Je ne suis pas avocat cependant - alors prenez avec un grain de sel.)

(3010)χ2


J'ai mis à jour certaines de mes réflexions dans un article de blog . Mon message est spécifique aux défis Batson, il n'est donc pas clair si vous recherchez une autre situation (vos mises à jour pour 1 et 2 n'ont pas de sens dans le contexte des défis Batson.)

J'ai pu trouver un article connexe (disponible dans son intégralité sur le lien):

Gastwirth, JL (2005). Commentaire de cas: tests statistiques pour l'analyse des données sur les défis impératifs: clarifier le niveau de preuve nécessaire pour établir un cas prima facie de discrimination dans Johnson c. Californie. Law, Probability and Risk , 4 (3), 179-185.

Cela a donné la même suggestion pour l'utilisation de la distribution hypergéométrique. Dans mon article de blog, je montre comment, si vous réduisez les catégories en deux groupes, cela équivaut au test exact de Fisher.

kk=5k=6nnd

Si quelqu'un prend connaissance de la jurisprudence qui utilise réellement cela (ou autre chose que des fractions), je serais intéressé.

Andy W
la source
1
Merci, Andy. (1) Mon ami avocat pense qu'il est parfaitement acceptable / utile d'affirmer que C a été sur-contesté et A sous-contesté. (2) Vous dites "quelle statistique de test". Je trouve cela déroutant - quelle statistique de test utilisez-vous lorsque vous calculez 0,07 en utilisant hypergéométrique? Cela permet de calculer la probabilité en tant que rapport des cas suspects au nombre total de cas. De même, c'est exactement ce que fait mon analyse, sauf définir les cas suspects plus étroitement que vous.
JD
@JonathanMarch - Je n'utilise pas de statistique de test. Il s'agit de la probabilité que 4 des 6 classes C soient choisies au hasard (compte tenu des autres conditions) en fonction de la distribution hypergéométrique. Je comprends la motivation des tests directionnels, mais ce n'est pas le cas de test t habituel. Dans ce cas, vous avez une distribution nulle continue, donc pour donner une valeur p, vous devez définir l'alternative comme une zone. Il n'y a aucun besoin implicite de le faire avec une distribution PMF comme ici.
Andy W
1
Si vous le souhaitez, vous pouvez ajouter la probabilité de k=5 et k=6 à la 0,07ci-dessus, mais bien sûr, cela ne ferait qu'augmenter la probabilité indiquée ci-dessus. Vos calculs originaux supposent que toutes les permutations potentielles sont également probables. Ce qui, à mon avis, est défendable, mais je pense que spécifier le processus de génération de données comme hypergéométrique est plus réaliste. Le partitionnement dans votre question me paraît intuitif mais ad-hoc, je ne vois aucune raison de l'interpréter comme une probabilité dans tous les sens.
Andy W
1
(+1) La statistique du test est le nombre de contestations du groupe C. Ceci est valable et pertinent car C pourrait être identifié a priori comme la race du défendeur. L'analyse d'Andy est parfaitement appropriée (et assez puissante) en supposant que 10 défis péremptoires ont été fixés à l'avance. Je crois (mais il faudrait vérifier) ​​que c'est une bonne approximation en supposant que le nombre de défis péremptoires était aléatoire. La logique est simple et douce: si les défis étaient assignés au hasard à 30 personnes, quelle est la chance que 4 défis ou plus aient été lancés pour le groupe C? La réponse est86/11317.6%.
whuber
1
Jonathan, pour votre bien, je vais vous donner du fil à retordre (comme le ferait un expert de l'opposition). Je crois que votre approche est invalide parce que vous utilisez une statistique ad hoc sans justification théorique; il semble construit uniquement pour produire une petite valeur p. La statistique d'Andy peut être basée sur des hypothèses nulles et alternatives stipulées et justifiées à l'aide du lemme de Neyman-Pearson. Votre statistique semble reposer sur un examen post hoc des résultats et ne semble correspondre à aucune autre hypothèse qui aurait été affirmée avant (c'est-à-dire indépendamment) du voir-dire .
blanc
0

N'oublions pas le problème des tests multiples. Imaginez 100 avocats de la défense qui recherchent chacun des motifs d'appel. Tous les refus du juré avaient été effectués en retournant des pièces ou en lançant des dés pour chaque juré potentiel. Par conséquent, aucun des refus n'a été biaisé racialement.

Chacun des 100 avocats fait maintenant le test statistique sur lequel vous êtes tous d'accord. Environ cinq sur ces 100 rejetteront l'hypothèse nulle de "impartiale" et auront des motifs d'appel.

Emil Friedman
la source
IIUC, ils chercheraient des motifs pour que le juge ordonne un examen des motifs de chaque rejet individuel. Serait-ce réellement un problème si un tel examen avait lieu dans 5 de ces 100 cas?
JD