Des tests d'équivalence pour des données non normales?

9

J'ai quelques données que je ne peux pas nécessairement supposer être tirées de distributions normales, et je voudrais effectuer des tests d'équivalence entre les groupes. Pour les données normales, il existe des techniques comme TOST (deux tests t unilatéraux). Y a-t-il quelque chose d'analogue à TOST pour les données non normales?

Ryan C. Thompson
la source
1
Je ne connais pas TOST, mais cherchez-vous Mann-Whitney? Il s'agit d'un test non paramétrique (dans le sens où aucune hypothèse sur les distributions n'est faite) qui peut fournir la preuve que deux groupes proviennent de distributions différentes.
Nick Sabbe
1
Je cherche un test où l'hypothèse nulle est qu'il y a une différence, et l'hypothèse alternative est qu'il n'y a (presque) aucune différence.
Ryan C. Thompson
Pour les petits échantillons, vous pouvez consulter les réponses dans stats.stackexchange.com/questions/49782/… . Pour les échantillons plus gros, l'approche classique avec les tests t est très bien grâce au théorème de limite centrale.
Michael M
3
Rien dans l'expression "Deux tests unilatéraux" - ni la logique sous-jacente n'implique la théorie normale. Il devrait être parfaitement possible de l'adapter à une alternative de localisation avec une distribution non normale. Mais attention - dans de nombreux cas, avec des données non normales, ce que vous voulez vraiment, c'est un type de test d'équivalence à changement d'échelle , et avec d'autres types de données, quelque chose d'autre à la place. Savoir ce qui est nécessaire dépend vraiment de ce que vous mesurez et du problème que vous résolvez. Plutôt que d'essayer de presser votre cheville dans un trou rond, il vaut la peine d'examiner la cheville.
Glen_b -Reinstate Monica

Réponses:

8

La logique de TOST utilisée pour les statistiques des tests t et z de type Wald (par exemple et , respectivement) peut être appliquée aux approximations z pour les tests non paramétriques comme le signe , signer des tests de classement et de somme de classement. Pour simplifier, je suppose que l'équivalence est exprimée symétriquement avec un seul terme, mais étendre ma réponse aux termes d'équivalence asymétrique est simple.θ/sθθ/σθ

Un problème qui se pose en faisant cela est que si l'on est habitué à exprimer le terme d'équivalence (par exemple, ) dans les mêmes unités que , alors le terme d'équivalence doit être exprimé en unités du signe particulier, rang signé, ou statistique de la somme des rangs, ce qui est à la fois hermétique, et dépendante de N .Δθ

Cependant, on peut également exprimer les termes d'équivalence TOST en unités de la statistique de test elle-même. Considérez que dans TOST, si , alors et . Si nous laissons , alors , et . (Les statistiques exprimées ici sont toutes deux évaluées dans la partie droite : et .) Utilisation des unités du zz=θ/σθz1=(Δθ)/σθz2=(θ+Δ)/σθε=Δ/σθz1=εzz2=z+εp 1 = P ( Z > z 1 ) p 2 = P (p1=P(Z>z1)p2=P(Z>z2) la distribution pour définir le seuil d'équivalence / pertinence peut être préférable pour les tests non paramétriques, car l'alternative définit le seuil en unités de rangs signés ou de sommes de rangs, qui peut être substantiellement dénué de sens pour les chercheurs et difficile à interpréter.

Si nous reconnaissons que (pour les intervalles d'équivalence symétriques) il n'est pas possible de rejeter une hypothèse nulle TOST lorsque , alors nous pourrions procéder à des décisions sur la taille appropriée du terme d'équivalence en conséquence. Par exemple .εz1αε=z1α+0.5

Cette approche a été implémentée avec des options de correction de continuité, etc. dans le package tost pour Stata (qui inclut désormais des implémentations TOST spécifiques pour les tests Shapiro-Wilk et Shapiro-Francia), auxquelles vous pouvez accéder en tapant Stata:

Edit: Pourquoi la logique de TOST est solide et que des formations de tests d'équivalence ont été appliquées aux tests omnibus, j'ai été convaincu que ma solution était basée sur une profonde méconnaissance des statistiques approximatives pour les tests de Shapiro-Wilk et Shapiro-Francia

Alexis
la source
3

Ce n'est pas un TOST en soi, mais le test de Komolgorov-Smirnov permet de tester la signification de la différence entre une distribution d'échantillon et une deuxième distribution de référence que vous pouvez spécifier. Vous pouvez utiliser ce test pour exclure un type spécifique de distribution différente, mais pas les différentes distributions en général (du moins, non sans contrôler l'inflation des erreurs entre les tests de toutes les alternatives possibles ... si cela est possible en soi). L'hypothèse alternative pour n'importe quel test restera une hypothèse "fourre-tout" moins spécifique, comme d'habitude.

Si vous pouvez vous contenter d'un test des différences de distribution entre deux groupes où l'hypothèse nulle est que les deux groupes sont distribués de manière équivalente, vous pouvez utiliser le test de Komolgorov-Smirnov pour comparer la distribution d'un groupe à celle de l'autre groupe. C'est probablement l'approche conventionnelle: ignorer les différences si elles ne sont pas statistiquement significatives et justifier cette décision avec une statistique de test.

Dans tous les cas, vous voudrez peut-être examiner certains problèmes plus profonds découlant de l'approche «tout ou rien» pour rejeter une hypothèse nulle. Un de ces problèmes est très populaire ici sur Cross Validated: "Les tests de normalité sont-ils" essentiellement inutiles "? " Les gens aiment répondre aux questions de test de normalité par une question: "Pourquoi voulez-vous tester cela?" L'intention, je suppose, est généralement d'invalider la raison du test, qui peut finalement conduire dans la bonne direction. L'essentiel des réponses utiles à la question que j'ai liée ici semble être la suivante:

  1. Si vous êtes préoccupé par les violations des hypothèses de test paramétrique, vous devriez simplement trouver un test non paramétrique qui ne fait pas d'hypothèses de distribution à la place. Ne testez pas si vous devez utiliser le test non paramétrique; il suffit de l'utiliser!
  2. Vous devez remplacer la question "Ma distribution est-elle sensiblement anormale?" avec: "Dans quelle mesure ma distribution est-elle anormale et comment est-ce susceptible d'affecter mes analyses d'intérêt?" Par exemple, les tests concernant la tendance centrale (impliquant en particulier les moyens) peuvent être plus sensibles à l'asymétrie qu'à la kurtosis, et vice versa pour les tests concernant la (co) variance. Néanmoins, il existe des alternatives robustes pour la plupart des objectifs analytiques qui ne sont pas très sensibles à l'un ou l'autre type de non-normalité.

Si vous souhaitez toujours poursuivre un test d'équivalence, voici une autre discussion populaire sur la validation croisée qui implique des tests d'équivalence.

Nick Stauner
la source
1
Le test d'équivalence est bien établi et vous comprenez mal ses hypothèses nulles, qui sont généralement de la forme H . Il s'agit d'une hypothèse d'intervalle qui peut se traduire, par exemple, en deux tests unilatéraux (TOST): H , ou H . Si l'on rejette H & H , alors vous devez conclure que , c'est-à-dire que vos groupes sont équivalents dans l'intervalle . 0:|θθ0|Δ01:θθ0Δ01:θθ0Δ0102Δ<θθ0<Δ[Δ,Δ]
Alexis
C'est suffisant; J'étais probablement un peu trompeur. J'ai supprimé les parties auxquelles vous semblez vous opposer. Cependant, je pense que vous avez formulé votre commentaire un peu trop fort. Malgré le fait que l' approche dichotomique fail to/ forcée rejectest bien établie, la plupart des échantillons ne peuvent pas complètement exclure la possibilité que la valeur nulle soit vraie. Il y a presque toujours un risque d'erreur de faux rejet si l'on insiste sur le rejet, ce qui n'est généralement pas littéralement nécessaire. C'était probablement le point le plus important que j'avais l'intention de soulever à l'origine. J'espère que c'est un peu plus clair maintenant sans les trucs supprimés
Nick Stauner
2
Eh bien, à mon avis, la force des tests d'équivalence (par exemple H ) vient de leur combinaison avec les tests de différence familiers (par exemple H ). Vérifiez-le: (1) Rejeter H et ne pas rejeter H , conclure la différence pertinente ; (2) Ne pas rejeter H et rejeter H , conclure l' équivalence (pour ); (3) Rejeter H & Rejeter H , conclure une différence triviale (c'est-à-dire qu'elle est là, mais vous vous en fichez); et (4) Ne pas rejeter H et Ne pas rejeter H+ 0 + 0 - 0 + 0 - 0 Δ + 0 - 0 + 0 - 000+0+00+0Δ0+00+0, conclure les tests d'indétermination _ / _ sous-alimentés . Met utilement la puissance dans l'analyse.
Alexis
Bien sûr, les problèmes de sensibilité et de spécificité, PPV et NPV ne disparaissent pas.
Alexis
-1

L'équivalence n'est jamais quelque chose que nous pouvons tester . Réfléchissez à l'hypothèse: vs . La théorie NHST nous dit que, sous l'hypothèse nulle, nous pouvons choisir quoi que ce soit sous qui convient le mieux les données. Cela signifie que nous pouvons presque toujours nous rapprocher arbitrairement de la distribution. Par exemple, si je veux tester , le modèle de probabilité qui permet des distributions séparées de et sera toujours plus probable sous le null, une violation des hypothèses de test critiques. Même si l'échantillonH 1 : f x = f y H 0 f x ~ N (0,1) f x f y X=Y f y f xH0:fxfyH1:fx=fyH0fxN(0,1)f^xf^yX=Yidentiquement, je peux obtenir un rapport de vraisemblance qui est arbitrairement proche de 1 avec .fyfx

Si vous connaissez un modèle de probabilité approprié pour les données, vous pouvez utiliser un critère d'information pénalisé pour classer les modèles alternatifs. Une façon consiste à utiliser les BIC des deux modèles de probabilité (celui estimé sous et . J'ai utilisé un modèle de probabilité normal, mais vous pouvez facilement obtenir un BIC de n'importe quel type de procédure de vraisemblance maximale, soit à la main, soit à l'aide du GLM. Ce post Stackoverflow est très utile pour ajuster les distributions. Un exemple de cette opération est ici:H 1H0H1

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

donne

> mean(p)
[1] 0.034

p est ici la proportion de fois où le BIC du modèle nul (modèles séparés) est meilleur (inférieur) que le modèle alternatif (modèle équivalent). Ceci est remarquablement proche du niveau nominal de 0,05 des tests statistiques.

Par contre si l'on prend:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

Donne:

> mean(p)
[1] 0.437

Comme pour le NHST, il existe des problèmes subtils de puissance et de taux d'erreur de faux positifs qui devraient être explorés par simulation avant de tirer des conclusions définitives.

Je pense qu'une méthode similaire (peut-être plus générale) utilise les statistiques bayésiennes pour comparer l'estimation postérieure sous l'un ou l'autre modèle de probabilité.

AdamO
la source
2
AdamO, vous semblez confondre "tester l'égalité" avec "tester l'équivalence". Il existe une littérature vieille de plusieurs dizaines d'années sur les méthodes et l'application de ces dernières.
Alexis
1
Voir, par exemple, Wellek, S. (2010). Test d'hypothèses statistiques d'équivalence et de non-infériorité . Chapman and Hall / CRC Press, deuxième édition.
Alexis
@Alexis hmm, nous n'avons malheureusement pas accès à une bibliothèque. Voulez-vous dire que l'équivalence est la même que la non-infériorité dans la mesure où les estimations se situant dans une marge sont considérées comme équivalentes?
AdamO
1
Pas tout à fait: la non-infériorité est un test unilatéral pour savoir si un nouveau traitement ne fonctionne pas moins bien que certains standards moins la plus petite différence pertinente spécifiée a priori . Les tests d'équivalence sont des tests de l'hypothèse nulle selon laquelle deux (ou plus) quantités sont différentes - dans les deux sens - de plus d'une plus petite différence pertinente spécifiée a priori . Quelques articles fondateurs:
Alexis
Schuirmann, DA (1987). Une comparaison de la procédure des deux tests unilatéraux et de l'approche de puissance pour évaluer l'équivalence de la biodisponibilité moyenne . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.
Alexis