J'ai quelques données que je ne peux pas nécessairement supposer être tirées de distributions normales, et je voudrais effectuer des tests d'équivalence entre les groupes. Pour les données normales, il existe des techniques comme TOST (deux tests t unilatéraux). Y a-t-il quelque chose d'analogue à TOST pour les données non normales?
hypothesis-testing
equivalence
tost
Ryan C. Thompson
la source
la source
Réponses:
La logique de TOST utilisée pour les statistiques des tests t et z de type Wald (par exemple et , respectivement) peut être appliquée aux approximations z pour les tests non paramétriques comme le signe , signer des tests de classement et de somme de classement. Pour simplifier, je suppose que l'équivalence est exprimée symétriquement avec un seul terme, mais étendre ma réponse aux termes d'équivalence asymétrique est simple.θ/sθ θ/σθ
Un problème qui se pose en faisant cela est que si l'on est habitué à exprimer le terme d'équivalence (par exemple, ) dans les mêmes unités que , alors le terme d'équivalence doit être exprimé en unités du signe particulier, rang signé, ou statistique de la somme des rangs, ce qui est à la fois hermétique, et dépendante de N .Δ θ
Cependant, on peut également exprimer les termes d'équivalence TOST en unités de la statistique de test elle-même. Considérez que dans TOST, si , alors et . Si nous laissons , alors , et . (Les statistiques exprimées ici sont toutes deux évaluées dans la partie droite : et .) Utilisation des unités du zz=θ/σθ z1=(Δ−θ)/σθ z2=(θ+Δ)/σθ ε=Δ/σθ z1=ε−z z2=z+ε p 1 = P ( Z > z 1 ) p 2 = P (p1=P(Z>z1) p2=P(Z>z2) la distribution pour définir le seuil d'équivalence / pertinence peut être préférable pour les tests non paramétriques, car l'alternative définit le seuil en unités de rangs signés ou de sommes de rangs, qui peut être substantiellement dénué de sens pour les chercheurs et difficile à interpréter.
Si nous reconnaissons que (pour les intervalles d'équivalence symétriques) il n'est pas possible de rejeter une hypothèse nulle TOST lorsque , alors nous pourrions procéder à des décisions sur la taille appropriée du terme d'équivalence en conséquence. Par exemple .ε≤z1−α ε=z1−α+0.5
Cette approche a été implémentée avec des options de correction de continuité, etc. dans le package tost pour Stata (qui inclut désormais des implémentations TOST spécifiques pour les tests Shapiro-Wilk et Shapiro-Francia), auxquelles vous pouvez accéder en tapant Stata:Edit: Pourquoi la logique de TOST est solide et que des formations de tests d'équivalence ont été appliquées aux tests omnibus, j'ai été convaincu que ma solution était basée sur une profonde méconnaissance des statistiques approximatives pour les tests de Shapiro-Wilk et Shapiro-Francia
la source
Ce n'est pas un TOST en soi, mais le test de Komolgorov-Smirnov permet de tester la signification de la différence entre une distribution d'échantillon et une deuxième distribution de référence que vous pouvez spécifier. Vous pouvez utiliser ce test pour exclure un type spécifique de distribution différente, mais pas les différentes distributions en général (du moins, non sans contrôler l'inflation des erreurs entre les tests de toutes les alternatives possibles ... si cela est possible en soi). L'hypothèse alternative pour n'importe quel test restera une hypothèse "fourre-tout" moins spécifique, comme d'habitude.
Si vous pouvez vous contenter d'un test des différences de distribution entre deux groupes où l'hypothèse nulle est que les deux groupes sont distribués de manière équivalente, vous pouvez utiliser le test de Komolgorov-Smirnov pour comparer la distribution d'un groupe à celle de l'autre groupe. C'est probablement l'approche conventionnelle: ignorer les différences si elles ne sont pas statistiquement significatives et justifier cette décision avec une statistique de test.
Dans tous les cas, vous voudrez peut-être examiner certains problèmes plus profonds découlant de l'approche «tout ou rien» pour rejeter une hypothèse nulle. Un de ces problèmes est très populaire ici sur Cross Validated: "Les tests de normalité sont-ils" essentiellement inutiles "? " Les gens aiment répondre aux questions de test de normalité par une question: "Pourquoi voulez-vous tester cela?" L'intention, je suppose, est généralement d'invalider la raison du test, qui peut finalement conduire dans la bonne direction. L'essentiel des réponses utiles à la question que j'ai liée ici semble être la suivante:
Si vous souhaitez toujours poursuivre un test d'équivalence, voici une autre discussion populaire sur la validation croisée qui implique des tests d'équivalence.
la source
fail to
/ forcéereject
est bien établie, la plupart des échantillons ne peuvent pas complètement exclure la possibilité que la valeur nulle soit vraie. Il y a presque toujours un risque d'erreur de faux rejet si l'on insiste sur le rejet, ce qui n'est généralement pas littéralement nécessaire. C'était probablement le point le plus important que j'avais l'intention de soulever à l'origine. J'espère que c'est un peu plus clair maintenant sans les trucs supprimésL'équivalence n'est jamais quelque chose que nous pouvons tester . Réfléchissez à l'hypothèse: vs . La théorie NHST nous dit que, sous l'hypothèse nulle, nous pouvons choisir quoi que ce soit sous qui convient le mieux les données. Cela signifie que nous pouvons presque toujours nous rapprocher arbitrairement de la distribution. Par exemple, si je veux tester , le modèle de probabilité qui permet des distributions séparées de et sera toujours plus probable sous le null, une violation des hypothèses de test critiques. Même si l'échantillonH 1 : f x = f y H 0 f x ~ N (0,1) f x f y X=Y f y ≈ f xH0:fx≠fy H1:fx=fy H0 fx∼N(0,1) f^x f^y X=Y identiquement, je peux obtenir un rapport de vraisemblance qui est arbitrairement proche de 1 avec .fy≈fx
Si vous connaissez un modèle de probabilité approprié pour les données, vous pouvez utiliser un critère d'information pénalisé pour classer les modèles alternatifs. Une façon consiste à utiliser les BIC des deux modèles de probabilité (celui estimé sous et . J'ai utilisé un modèle de probabilité normal, mais vous pouvez facilement obtenir un BIC de n'importe quel type de procédure de vraisemblance maximale, soit à la main, soit à l'aide du GLM. Ce post Stackoverflow est très utile pour ajuster les distributions. Un exemple de cette opération est ici:H 1H0 H1
donne
Par contre si l'on prend:
Donne:
Comme pour le NHST, il existe des problèmes subtils de puissance et de taux d'erreur de faux positifs qui devraient être explorés par simulation avant de tirer des conclusions définitives.
Je pense qu'une méthode similaire (peut-être plus générale) utilise les statistiques bayésiennes pour comparer l'estimation postérieure sous l'un ou l'autre modèle de probabilité.
la source