J'ai l'impression que cela a peut-être été demandé ailleurs, mais pas vraiment avec le type de description de base dont j'ai besoin. Je sais que non paramétrique s'appuie sur la médiane au lieu de la moyenne pour comparer ... quelque chose. Je crois également qu'il repose sur des "degrés de liberté" (?) Au lieu de l'écart-type. Corrigez-moi si je me trompe.
J'ai fait de très bonnes recherches, ou du moins je pensais, en essayant de comprendre le concept, quels en sont les mécanismes, ce que signifient réellement les résultats des tests et / ou quoi faire des résultats des tests; cependant, personne ne semble jamais s'aventurer dans ce domaine.
Par souci de simplicité, gardons-nous du test U de Mann-Whitney, que j'ai remarqué est assez populaire (et aussi apparemment mal utilisé et trop utilisé afin de forcer son "modèle carré dans un trou circulaire"). Si vous souhaitez également décrire les autres tests, n'hésitez pas, bien que je me sente une fois que j'en comprends un, je peux comprendre les autres de manière analogue vers divers tests t, etc.
Supposons que j'exécute un test non paramétrique avec mes données et que j'obtiens ce résultat:
2 Sample Mann-Whitney - Customer Type
Test Information
H0: Median Difference = 0
Ha: Median Difference ≠ 0
Size of Customer Large Small
Count 45 55
Median 2 2
Mann-Whitney Statistic: 2162.00
p-value (2-sided, adjusted for ties): 0.4156
Je connais d'autres méthodes, mais qu'est-ce qui est différent ici? Devrions-nous vouloir que la valeur p soit inférieure à 0,05? Que signifie la "statistique de Mann-Whitney"? Y a-t-il une utilité? Est-ce que ces informations ici vérifient ou non qu'une source de données particulière que je possède doit ou ne doit pas être utilisée?
J'ai une quantité raisonnable d'expérience avec la régression et les bases, mais je suis très curieux à propos de ce truc non paramétrique "spécial" - qui je sais aura ses propres défauts.
Imaginez simplement que je suis élève de cinquième année et voyez si vous pouvez me l'expliquer.
Réponses:
Pratiquement aucun test non paramétrique "ne repose" sur des médianes dans ce sens. Je ne peux penser qu'à un couple ... et le seul dont je pense que vous auriez probablement entendu parler serait le test des signes.
S'ils s'appuyaient sur des médianes, ce serait probablement pour comparer les médianes. Mais - malgré ce que plusieurs sources essaient de vous dire - des tests comme le test de classement signé, ou le Wilcoxon-Mann-Whitney ou le Kruskal-Wallis ne sont pas du tout un test des médianes; si vous faites des hypothèses supplémentaires, vous pouvez considérer le Wilcoxon-Mann-Whitney et le Kruskal-Wallis comme des tests de médianes, mais selon les mêmes hypothèses (tant que les moyens de distribution existent), vous pouvez également les considérer comme un test de moyens .
L'estimation de localisation réelle pertinente pour le test du rang signé est la médiane des moyennes par paire au sein de l'échantillon, celle de Wilcoxon-Mann-Whitney (et par implication, dans Kruskal-Wallis) est la médiane des différences par paire entre les échantillons .
La plupart des tests non paramétriques n'ont pas de `` degrés de liberté '', bien que la distribution de beaucoup change avec la taille de l'échantillon et vous pourriez considérer cela comme quelque peu apparenté aux degrés de liberté dans le sens où les tableaux changent avec la taille de l'échantillon. Les échantillons conservent bien sûr leurs propriétés et ont n degrés de liberté dans ce sens, mais les degrés de liberté dans la distribution d'une statistique de test ne nous concernent généralement pas. Il peut arriver que vous ayez quelque chose de plus comme des degrés de liberté - par exemple, vous pourriez certainement faire valoir que le Kruskal-Wallis a effectivement des degrés de liberté dans le même sens qu'un khi carré, mais il n'est généralement pas examiné de cette façon (par exemple, si quelqu'un parle des degrés de liberté d'un Kruskal-Wallis, ils signifieront presque toujours le df
Une bonne discussion des degrés de liberté peut être trouvée ici /
Je ne sais pas ce que tu veux dire par là.
Je pourrais suggérer quelques livres, comme Conover's Practical Nonparametric Statistics , et si vous pouvez l'obtenir, le livre de Neave et Worthington ( Distribution-Free Tests ), mais il y en a beaucoup d'autres - Marascuilo & McSweeney, Hollander & Wolfe, ou le livre de Daniel par exemple. Je vous suggère de lire au moins 3 ou 4 de ceux qui vous parlent le mieux, de préférence ceux qui expliquent les choses aussi différemment que possible (cela signifierait au moins lire un peu de peut-être 6 ou 7 livres pour trouver disons 3 qui conviennent).
C'est ce qui m'a intrigué dans votre déclaration "personne ne semble jamais s'aventurer dans ce domaine" - de nombreuses personnes qui utilisent ces tests "s'aventurent dans le domaine" dont vous parliez.
Je dirais que les tests non paramétriques sont généralement sous - utilisés si quelque chose (y compris les tests de Wilcoxon-Mann-Whitney) - plus particulièrement les tests de permutation / randomisation, bien que je ne contesterais pas nécessairement qu'ils sont fréquemment mal utilisés (mais les tests paramétriques le sont aussi, même d'autant plus).
[couper]
De quelles autres méthodes parlez-vous? À quoi voulez-vous que je compare cela?
Edit: Vous mentionnez la régression plus tard; Je suppose donc que vous connaissez un test t à deux échantillons (car c'est vraiment un cas particulier de régression).
Selon les hypothèses du test t ordinaire à deux échantillons, l'hypothèse nulle veut que les deux populations soient identiques, contre l'alternative selon laquelle l'une des distributions a changé. Si vous regardez le premier des deux ensembles d'hypothèses pour le Wilcoxon-Mann-Whitney ci-dessous, la chose de base testée est presque identique; c'est juste que le test t est basé sur l'hypothèse que les échantillons proviennent de distributions normales identiques (en dehors d'un éventuel changement de lieu). Si l'hypothèse nulle est vraie et que les hypothèses qui l'accompagnent sont vraies, la statistique de test a une distribution t. Si l'hypothèse alternative est vraie, alors la statistique de test devient plus susceptible de prendre des valeurs qui ne semblent pas cohérentes avec l'hypothèse nulle mais semblent cohérentes avec l'alternative - nous nous concentrons sur la plus inhabituelle,
La situation est très similaire avec celle de Wilcoxon-Mann-Whitney, mais elle mesure l'écart de la valeur nulle quelque peu différemment. En fait, lorsque les hypothèses du test t sont vraies *, c'est presque aussi bon que le meilleur test possible (qui est le test t).
* (ce qui n'est jamais le cas en pratique, bien que ce ne soit pas vraiment autant un problème qu'il y paraît)
En effet, il est possible de considérer le Wilcoxon-Mann-Whitney comme un "test t" efficace effectué sur les rangs des données - bien qu'il n'ait alors pas de distribution t; la statistique est une fonction monotone d'une statistique t à deux échantillons calculée sur les rangs des données, donc elle induit le même ordre ** sur l'espace d'échantillonnage (c'est-à-dire un "test t" sur les rangs - correctement exécuté - générerait les mêmes valeurs de p qu'un Wilcoxon-Mann-Whitney), il rejette donc exactement les mêmes cas.
** (strictement, commande partielle, mais laissons cela de côté)
[On pourrait penser que le simple fait d'utiliser les rangs jetterait beaucoup d'informations, mais lorsque les données sont tirées de populations normales avec la même variance, presque toutes les informations sur le changement de lieu se trouvent dans les schémas des rangs. Les valeurs réelles des données (conditionnelles à leur classement) ajoutent très peu d'informations supplémentaires à cela. Si vous allez plus lourd que la normale, il ne faut pas longtemps avant que le test de Wilcoxon-Mann-Whitney ait un meilleur pouvoir, tout en conservant son niveau de signification nominal, de sorte que les informations supplémentaires au-dessus des rangs finissent par devenir non seulement non informatives, mais dans certains sens, trompeur. Cependant, la queue lourde presque symétrique est une situation rare; ce que vous voyez souvent dans la pratique, c'est l'asymétrie.]
Les idées de base sont assez similaires, les valeurs p ont la même interprétation (la probabilité d'un résultat, ou plus extrême, si l'hypothèse nulle était vraie) - jusqu'à l'interprétation d'un changement de lieu, si vous faites les hypothèses requises (voir la discussion des hypothèses vers la fin de ce post).
Si je faisais la même simulation que dans les graphiques ci-dessus pour le test t, les graphiques sembleraient très similaires - l'échelle sur les axes x et y serait différente, mais l'apparence de base serait similaire.
Vous ne devriez pas "vouloir" quoi que ce soit là-bas. L'idée est de savoir si les échantillons sont plus différents (dans un sens géographique) que ce qui peut être expliqué par hasard, et non de «souhaiter» un résultat particulier.
Si je dis « Peux - tu aller voir la couleur de la voiture de Raj est s'il vous plaît? », Si je veux une évaluation impartiale de ce que je ne veux pas que tu sois allez « Mec, je vraiment, espérons vraiment que c'est bleu! Il juste doit être bleu". Mieux vaut simplement voir quelle est la situation, plutôt que d'aller avec certains «j'ai besoin que ce soit quelque chose».
Si le niveau de signification choisi est 0,05, vous rejetterez l'hypothèse nulle lorsque la valeur p est inférieure à 0,05. Mais ne pas rejeter lorsque vous avez une taille d'échantillon suffisamment grande pour détecter presque toujours les tailles d'effet pertinentes est au moins aussi intéressant, car cela dit que toutes les différences qui existent sont petites.
La statistique de Mann-Whitney .
Cela n'a vraiment de sens que par rapport à la distribution des valeurs qu'il peut prendre lorsque l'hypothèse nulle est vraie (voir le diagramme ci-dessus), et cela dépend de la définition de plusieurs programmes particuliers qu'un programme particulier pourrait utiliser.
Habituellement, vous ne vous souciez pas de la valeur exacte en tant que telle, mais où elle se trouve dans la distribution nulle (que ce soit plus ou moins typique des valeurs que vous devriez voir lorsque l'hypothèse nulle est vraie, ou si elle est plus extrême)
(Modifier: vous pouvez obtenir ou calculer des quantités directement informatives lors d'un tel test - comme le décalage d'emplacement ou discuté ci-dessous, et en effet, vous pouvez calculer le second assez directement à partir de la statistique, mais le la statistique seule n'est pas un nombre très informatif)P( X< O)
Ce test ne dit rien sur "une source particulière de données que je dois ou ne devrait pas être utilisée".
Voir ma discussion sur les deux façons d'examiner les hypothèses WMW ci-dessous.
Les tests non paramétriques n'ont rien de particulièrement spécial (je dirais que les tests `` standard '' sont à bien des égards encore plus fondamentaux que les tests paramétriques typiques) - tant que vous comprenez réellement les tests d'hypothèse.
C'est probablement un sujet pour une autre question, cependant.
Il existe deux façons principales d'examiner le test d'hypothèse de Wilcoxon-Mann-Whitney.
i) L'une consiste à dire «je m'intéresse au changement de lieu - c'est-à-dire que sous l'hypothèse nulle, les deux populations ont la même distribution (continue) , contre l'alternative selon laquelle l'une est« décalée »vers le haut ou vers le bas par rapport à la autre"
Le Wilcoxon-Mann-Whitney fonctionne très bien si vous faites cette hypothèse (que votre alternative n'est qu'un changement de lieu)
Dans ce cas, le Wilcoxon-Mann-Whitney est en fait un test pour les médianes ... mais c'est également un test pour les moyennes, ou en fait toute autre statistique équivariante à l'emplacement (90e centiles, par exemple, ou moyennes ajustées, ou n'importe quel nombre de d'autres choses), car ils sont tous affectés de la même manière par le changement d'emplacement.
La bonne chose à ce sujet est qu'il est très facilement interprétable - et il est facile de générer un intervalle de confiance pour ce changement d'emplacement.
Cependant, le test de Wilcoxon-Mann-Whitney est sensible à d'autres types de différence qu'un changement d'emplacement.
ii) L'autre consiste à adopter une approche entièrement générale. Vous pouvez caractériser cela comme un test pour la probabilité qu'une valeur aléatoire de la population 1 soit inférieure à une valeur aléatoire de la population 2 (et en effet, vous pouvez transformer votre statistique de Wilcoxon-Mann-Whitney en une estimation directe de cette probabilité, si vous sont tellement enclins; la formulation de Mann & Whitney en termes de statistiques U compte le nombre de fois où l'une dépasse l'autre dans les échantillons, vous n'avez besoin que d'une échelle pour obtenir une estimation de la probabilité); la valeur nulle est que la probabilité de population est , contre l'alternative qu'elle diffère de .12 12
la source
Supposons que vous et moi entraînions des équipes d'athlétisme. Nos athlètes viennent de la même école, ont des âges similaires et le même sexe (c'est-à-dire qu'ils sont issus de la même population), mais je prétends avoir découvert un nouveau système d'entraînement révolutionnaire qui permettra aux membres de mon équipe de courir beaucoup plus vite que le tiens. Comment puis-je vous convaincre que cela fonctionne vraiment?
Nous avons une course.
Ensuite, je m'assois et calcule le temps moyen pour les membres de mon équipe et le temps moyen pour les membres de la vôtre. Je revendiquerai la victoire si le temps moyen pour mes athlètes est non seulement plus rapide que le temps moyen pour le vôtre, mais la différence est également grande par rapport à la "dispersion", ou écart-type, de nos résultats.
"Mais Matt", vous plaignez-vous, "ce n'est pas tout à fait juste. Nos équipes sont assez similaires, mais vous - par pure chance - vous êtes retrouvé avec le coureur le plus rapide du district. Il n'est pas dans la même ligue que tout le monde" sinon, il est pratiquement un monstre de la nature. Il a terminé 3 minutes avant le deuxième plus rapide, ce qui réduit beaucoup votre temps moyen, mais les autres concurrents sont assez homogènes. Regardons plutôt l'ordre d'arrivée. Si votre méthode fonctionne vraiment, les finisseurs précédents devraient principalement être de votre équipe, mais si ce n'est pas le cas, l'ordre d'arrivée devrait être assez aléatoire. Cela ne donne pas un poids indu à votre super-star! "
la source
Vous avez demandé à être corrigé en cas d'erreur. Voici quelques commentaires sous cette rubrique pour compléter les suggestions positives de @Peter Flom.
"non paramétrique s'appuie sur la médiane au lieu de la moyenne": souvent en pratique, mais ce n'est pas une définition. Plusieurs tests non paramétriques (par exemple le khi carré) n'ont rien à voir avec les médianes.
repose sur des degrés de liberté au lieu de l'écart-type; c'est très confus. L'idée de degrés de liberté n'est en aucun cas une alternative à l'écart type; degrés de liberté en tant qu'idée s'applique à travers les statistiques.
"une source particulière de données dont je dispose devrait ou ne devrait pas être utilisée": cette question n'a rien à voir avec le test de signification que vous avez appliqué, qui concerne à peu près la différence entre des sous-ensembles de données et est exprimé en termes de différence entre les médianes.
la source
Vous "voulez" les mêmes choses d'une valeur de p ici que vous voulez dans n'importe quel autre test.
La statistique U est le résultat d'un calcul, tout comme la statistique t, le rapport de cotes, la statistique F ou ce que vous avez. La formule peut être trouvée beaucoup d'endroits. Ce n'est pas très intuitif, mais alors, les autres statistiques de test ne le sont pas non plus tant que vous ne vous y êtes pas habitué (nous reconnaissons à 2 comme étant dans la plage significative parce que nous les voyons tout le temps).
Le reste de la sortie dans votre texte de bloc doit être clair.
Pour une introduction plus générale aux tests non paramétriques, je fais écho à @NickCox .... obtenez un bon livre. Non paramétrique signifie simplement «sans paramètres»; il existe de nombreux tests et statistiques non paramétriques à des fins très diverses.
la source
En réponse à une question récemment close , cela répond également à ce qui précède. Vous trouverez ci-dessous une citation des tests statistiques sans distribution classiques de Bradley (1968, p. 15-16) qui, bien qu'un peu longue, est une explication assez claire, je crois.
la source