Test t apparié versus non apparié

20

Supposons que j'ai 20 souris. J'appaire les souris d'une manière ou d'une autre, de sorte que j'obtienne 10 paires. Aux fins de cette question, il pourrait s'agir d'un appariement aléatoire, OU il pourrait s'agir d'un appariement sensé, comme essayer d'associer des souris de la même portée, du même sexe, avec un poids similaire, OU il pourrait s'agir d'un appariement délibérément stupide comme en essayant de jumeler des souris avec des poids aussi inégaux que possible. J'utilise ensuite des nombres aléatoires pour affecter une souris de chaque paire au groupe témoin et l'autre souris au groupe à traiter. Je fais maintenant l'expérience, en ne traitant que les souris à traiter, mais en ne prêtant aucune attention aux dispositions qui viennent d'être prises.

Lorsque l'on vient analyser les résultats, on peut utiliser soit des tests t non appariés, soit des tests t appariés. En quoi, le cas échéant, les réponses différeront-elles? (Je m'intéresse essentiellement aux différences systématiques de tout paramètre statistique qui doit être estimé.)

La raison pour laquelle je pose cette question est qu'un article auquel j'ai participé récemment a été critiqué par un biologiste pour avoir utilisé un test t apparié plutôt qu'un test t non apparié. Bien sûr, dans l'expérience réelle, la situation n'était pas aussi extrême que la situation que j'ai esquissée, et il y avait, à mon avis, de bonnes raisons pour l'appariement. Mais le biologiste n'était pas d'accord.

Il me semble qu'il n'est pas possible d'améliorer incorrectement la signification statistique (diminution de la valeur de p), dans les circonstances que j'ai esquissées, en utilisant un test t apparié, plutôt qu'un test non apparié, même s'il est inapproprié de l'appairer. Cela pourrait cependant aggraver la signification statistique si les souris étaient mal appariées. Est-ce correct?

David Epstein
la source

Réponses:

23

Je suis d'accord avec les points soulevés par Frank et Peter, mais je pense qu'il existe une formule simple qui va au cœur du problème et qui pourrait valoir la peine d'être examinée par le PO.

Soit et deux variables aléatoires dont la corrélation est inconnue.YXOui

SoitZ=X-Oui

Quelle est la variance de ?Z

Voici la formule simple: Et si (c'est-à-dire que et sont positivement corrélés)?Cov ( X , Y ) > 0 X Y

Var(Z)=Var(X)+Var(Oui)-2Cov(X,Oui).
Cov(X,Oui)>0XOui

Alorst X iVar(Z)<Var(X)+Var(Oui). Dans ce cas, si l'appariement est effectué en raison d'une corrélation positive, comme lorsque vous traitez avec le même sujet avant et après l'intervention, l'appariement est utile, car la différence d'appariement indépendante a une variance inférieure à la variance que vous obtenez pour le cas non apparié. La méthode a réduit la variance. Le test est plus puissant. Cela peut être montré de façon spectaculaire avec des données cycliques. J'ai vu un exemple dans un livre où ils voulaient voir si la température à Washington DC était plus élevée qu'à New York. Ils ont donc pris la température mensuelle moyenne dans les deux villes pendant 2 ans. Bien sûr, il y a une énorme différence au cours de l'année en raison des quatre saisons. Cette variation est trop importante pour qu'un test t non apparié détecte une différence. Cependant, le jumelage basé sur le même mois de la même année élimine cet effet saisonnier et le jumelaget test a clairement montré que la température moyenne à DC avait tendance à être plus élevée qu'à New York. (température à NY au mois A ) et Y i (température à DC au mois A ) sont positivement corrélés car les saisons sont les mêmes à NY et DC et les villes sont suffisamment proches pour qu'elles connaissent souvent les mêmes systèmes météorologiques qui affectent Température. DC peut être un peu plus chaud car il est plus au sud.XiAYiA

Notez que plus la covariance ou la corrélation est grande, plus la réduction de la variance est importante.

Supposons maintenant que soit négatif.Cov(X,Y)

Puis . Maintenant, l'appariement sera pire que de ne pas l'appairer car la variance est en fait augmentée!Var(Z)>Var(X)+Var(Y)

Lorsque et Y ne sont pas corrélés, peu importe la méthode que vous utilisez. Le cas d'appariement aléatoire de Peter est comme cette situation.XY

Michael R. Chernick
la source
3
Michael, parce que "<" et ">" ont des significations spéciales sur les pages Web, pour éviter que de grandes parties de votre texte disparaissent simplement de votre vue, il est essentiel que vous utilisiez Balisage X pour eux dans les équations (les codes sont respectivement "\ lt" et "\ gt"). J'ai balisé les deux équations qui vous ont causé ce problème. À l'avenir, veuillez lire ce que vous publiez immédiatement après l'avoir publié pour vous assurer que les gens voient ce que vous pensiez qu'ils verraient, puis n'hésitez pas à signaler votre message à l'attention du modérateur en cas de problème avec le balisage. TEX
whuber
@whuber Merci. Je vérifie généralement pendant et après la publication, car je trouve que je gâche beaucoup les équations, surtout lors de la souscription. Manquer celui-ci est inhabituel et s'est probablement produit parce que c'était un long post et j'ai simplement passé à autre chose avec négligence. Parfois, un appel téléphonique me distrait et j'oublie de vérifier. En ce qui concerne les symboles spéciaux qui font disparaître le texte dans un message, je l'ai observé. Je pense qu'une solution simple est de vous assurer de laisser un espace après le symbole. Je pense que cela a fonctionné pour moi dans le passé.
Michael R. Chernick
+1, vraiment sur le point. Notez que si et Y sont parfaitement non corrélés dans votre échantillon , Var ( Z ) = Var ( X ) + Var ( Y ) . XOuiVar(Z)=Var(X)+Var(Oui)
gung - Rétablir Monica
@MichaelChernick Dans le cas où Cov (X, Y) <0, j'ai une question: si mon objectif est de déduire E [X] -E [Y] de mon expérience, alors MÊME SI J'AI MENÉ UNE ÉTUDE PAR APPARIEMENT, analyser mes données, je peux toujours faire semblant que le résultat de mon expérience est une réalisation de l'expérience randomisée UNPAIRED. Puis-je faire ceci? Parce que si vous avez vraiment fait une expérience aléatoire non appariée, vous pouvez littéralement obtenir le même résultat. Ensuite, je peux simplement prendre la moyenne de chaque groupe (ignorer les appariements) et prendre la différence de la moyenne des deux groupes. Il s'agit d'un estimateur non biaisé de E [Z]. Pour la variance de mon estimateur, j'utilise simplement ...
KevinKim
@MichaelChernick la variance de l'échantillon du groupe X et du groupe Y et les résumer
KevinKim
7

Plutôt que d'appairer, il vaut probablement mieux comprendre le modèle de données sous-jacent. Si l'appariement est effectué pour faire face à une hétérogénéité incontrôlée, il est généralement le cas (sauf dans les études jumelles) que l'appariement ne contrôle que partiellement cette source de variabilité et qu'une régression multiple ferait mieux. En effet, l'appariement sur des variables continues entraîne fréquemment une variabilité résiduelle en raison de l'impossibilité d'effectuer l'appariement exact sur ces variables.

Frank Harrell
la source
2
Si nous devons tous faire de la régression, pourquoi les livres sur la conception expérimentale, comme le livre de David Cox, soulignent-ils l'importance de l'appariement ou du regroupement dans les expériences biologiques? L'appariement évite l'hypothèse cachée de dépendance linéaire qu'implique la régression. Mais il y a peut-être d'autres raisons: n'importe qui ??
David Epstein
6

Les deux tests (appariés et non appariés) posent des questions différentes afin d'obtenir des réponses différentes. Un appariement correct est presque toujours plus puissant que non apparié - c'est vraiment le but de l'appariement. Donc, puisque vous dites que l'appariement est correct, il est probable que la valeur de p pour votre test apparié soit inférieure à celle des mêmes données non appariées. Vous pouvez, bien sûr, faire les deux et voir par vous-même.

Par conséquent, la réponse à votre dilemme est substantielle et non statistique. Votre jumelage est-il correct?

Pourriez-vous obtenir un résultat plus significatif d'un appariement aléatoire que d'un test non apparié? Voyons voir:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Oui vous pouvez, bien qu'ici la différence soit très petite, le couple avait un p plus faible. J'ai exécuté ce code plusieurs fois. Sans surprise, parfois un p est plus faible, parfois l'autre, mais la différence était faible dans tous les cas. Cependant, je suis sûr que dans certaines situations, la différence dans les valeurs de p pourrait être grande.

Peter Flom - Réintégrer Monica
la source
Merci pour la réponse, mais ma question demandait des différences systématiques . De toute évidence, dans une longue série de x et y, x et y semblent parfois être très bien appariés, et parfois comme s'ils ont été délibérément mal appariés. C'est sûrement une question statistique de savoir si, en choisissant au hasard x et y, la distribution des valeurs de p est la même sur les deux tests. Je suppose que cela ne devrait pas être trop difficile pour quelqu'un qui connaît plus de statistiques théoriques que moi de calculer les deux distributions théoriques des valeurs de p. Je suppose que ce sont les mêmes.
David Epstein
Dans le cas réel dans lequel j'étais impliqué, la valeur de p pour les paires non appariées était d'environ 0,04 et pour les paires 0,001. Selon le biologiste critique, nous devrions citer 0,04. Selon moi, l'amélioration de la valeur de p indique fortement que notre appariement était valide. Je prétends qu'il y a une question objective dans les statistiques ici, avec une réponse objective, et que ce n'est pas seulement une question de bon jugement biologique quant à la validité de l'appariement particulier --- ce dernier semble être l'opinion de Peter Flom et de le biologiste critique.
David Epstein
1
Je pense que les statistiques racontent l'histoire. Les deux résultats doivent être divulgués, mais tant que les données sont correctes et que la corrélation peut être expliquée, le test apparié est plus précis car il tient compte de la corrélation.
Michael R. Chernick
5

Je comprends maintenant beaucoup mieux ce qui m'inquiétait au sujet des tests t appariés par rapport aux tests t non appariés et des valeurs p associées. Découvrir a été un voyage intéressant et il y a eu beaucoup de surprises en cours de route. Une surprise a résulté d'une enquête sur la contribution de Michael. C'est irréprochable en termes de conseils pratiques. De plus, il dit ce que je pense que presque tous les statisticiens croient, et il a plusieurs votes positifs pour le confirmer. Cependant, en tant que morceau de théorie, ce n'est pas littéralement correct. J'ai découvert cela en élaborant les formules des valeurs de p, puis en réfléchissant soigneusement à la façon d'utiliser les formules pour aboutir à des contre-exemples. Je suis mathématicien de formation, et le contre-exemple est un "contre-exemple de mathématicien". Ce n'est pas quelque chose que vous rencontrerez dans les statistiques pratiques, le genre de chose que j'essayais de découvrir quand j'ai posé ma question d'origine.

Voici le code R qui donne le contre-exemple:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Notez les caractéristiques suivantes: X et Y sont deux 10-tuples dont la différence est énorme et presque constante. Pour de nombreux chiffres significatifs, la corrélation est de 1.000 ... La valeur de p pour le test non apparié est environ 10 ^ 40 fois plus petite que la valeur de p pour le test apparié. Cela contredit donc le récit de Michael, à condition de lire son récit littéralement, à la manière d'un mathématicien. Ici se termine la partie de ma réponse liée à la réponse de Michael.


Voici les réflexions suscitées par la réponse de Peter. Au cours de la discussion de ma question initiale, j'ai supposé dans un commentaire que deux distributions particulières de valeurs de p qui sonnent différemment sont en fait les mêmes. Je peux maintenant le prouver. Ce qui est plus important, c'est que la preuve révèle la nature fondamentale d'une valeur de p, si fondamentale qu'aucun texte (que j'ai rencontré) ne dérange à expliquer. Peut-être que tous les statisticiens professionnels connaissent le secret, mais pour moi, la définition de la valeur p m'a toujours semblé étrange et artificielle. Avant de révéler le secret du statisticien, permettez-moi de préciser la question.

n>1n2(n-1)n-1degrés de liberté. Ces deux distributions sont différentes, alors comment diable les distributions associées des valeurs de p pourraient-elles être les mêmes? Ce n'est qu'après mûre réflexion que j'ai réalisé que ce rejet évident de ma conjecture était trop facile.

F:(0,)(0,)[0,1]

p=tF(s)s
F(-,)[0,)

[0,1]

n-1[0,1]2(n-1)[0,1][0,1]

David Epstein
la source
Je ne pense pas que la valeur p ait des secrets mystérieux. Certaines personnes ont du mal avec ça. C'est la probabilité d'observer une valeur comme externe ou plus extrême que ce qui a été réellement observé lorsque l'hypothèse nulle est VRAIE. Je pense que vous aviez ce droit dans l'une de vos formules. Je pense que vous avez déclaré que les valeurs de p sont uniformément distribuées. Oui, je suis d'accord avec cela lorsque l'hypothèse nulle est vraie. Gardez à l'esprit qu'avec votre test t, l'hypothèse nulle peut ne pas être vraie. Alors la valeur de p n'est pas uniforme. Il devrait être concentré plus près de 0.
Michael R. Chernick
Deuxièmement, nous parlons de deux statistiques de test différentes. L'une est basée sur l'appariement et l'autre pas dans votre exemple. Que je l'ai mentionné dans ma réponse ou non, le test t non apparié a une distribution t centrale avec 2n-2 degrés de liberté tandis que la distribution t correspondante pour le test t apparié a n-1 degrés de liberté. Ainsi, celui avec le plus grand nombre de degrés de liberté est plus proche de la distribution normale standard que l'autre. Est-ce important lorsque vous appliquez ces tests à des données réelles? Non! Pas quand n est raisonnablement grand.
Michael R. Chernick
En remarque, une limitation du test apparié nécessite une taille d'échantillon égale que vous devriez avoir si toutes les données peuvent être appariées. Mais le test non apparié est valide avec des tailles d'échantillon inégales. Donc, en général, le test non apparié a n + m-2 degrés de liberté.
Michael R. Chernick
Votre réponse est longue et abstraite et j'ai essayé de la parcourir, mais je n'ai pas compris le contre-exemple. Je ne vois tout simplement pas où vous prenez l'hypothèse nulle et les données réelles en compte. La valeur de p observée est l'intégrale de la distribution t appropriée pour la statistique de test compte tenu des données. Vous comparez ces nombres pour les deux distributions t et le même ensemble de données commun. Si vous conditionnez les données observées, ces distributions uniformes ne jouent aucun rôle. Je suis désolé mais je ne vois pas que votre réponse réponde vraiment à votre question.
Michael R. Chernick
Michael: concentre-toi sur le code R que j'ai donné. Cela ne prend qu'une seconde pour fonctionner. L'hypothèse nulle est que X et Y proviennent de la même distribution normale, ce qui est, bien sûr, extrêmement faux dans mon cas. Dans mon exemple, Cov (X, Y)> 0 et néanmoins le test non apparié donne plus de signification que le test apparié.
David Epstein
1

J'offrirais une autre perspective. Souvent, l'appariement est fait pour réduire le biais. Supposons que vous souhaitez savoir si l'exposition E est un facteur de risque pour un résultat continu Y. Pour chaque sujet E +, vous obtenez un sujet correspondant à l'âge et au sexe qui est E-. Maintenant, nous pourrions faire soit un test t apparié, soit un test t non apparié. Je pense que nous devrions tenir compte de l'appariement de manière explicite et effectuer un test t par paires. Elle est plus basée sur des principes car elle prend en compte le design. La prise en compte de l'appariement dans l'analyse est une question de compromis biais-variance. La prise en compte de l'appariement dans l'analyse offre une meilleure protection contre les biais, mais peut augmenter la variance. Faire un test t non apparié peut être plus efficace, mais il ne fournirait aucune protection contre les biais.

Ravi Varadhan
la source