Avons-nous besoin de nous inquiéter des valeurs aberrantes lors de l'utilisation de tests basés sur le classement?

8

Toutes mes excuses si c'est une question très basique.

Si nous avons des données qui ne sont pas normalement distribuées (par exemple asymétriques, le test de Shapiro-Wilk est significatif) et que nous recourons à des méthodes basées sur le classement (par exemple le test de Wilcoxon Signed Rank), devons-nous alors nous préoccuper des valeurs aberrantes?

Imaginez, par exemple, que nous traçons les données en utilisant un boxplot et une minorité de points de données sont marqués comme des valeurs aberrantes. Faut-il transformer ces points? Ou les supprimer? Il me semble que de nombreux manuels parlent de traitement des valeurs aberrantes, mais uniquement parce qu'ils exercent une influence majeure sur les paramètres tels que la moyenne et l'écart type. Cependant, lorsque nous utilisons un test basé sur le classement, ils seront déjà «transformés» pour être la prochaine valeur dans le classement, et n'exerceront donc pas une influence majeure sur le test. Je n'ai pas vu cela déclaré explicitement dans un livre de statistiques jusqu'à présent, j'ai donc pensé poser la question ici.

Avons-nous besoin de nous inquiéter des valeurs aberrantes lors de l'utilisation de tests basés sur le classement?

trev
la source
3
Les tests statistiquement basés sur le classement sont robustes contre les valeurs aberrantes. Mais une valeur aberrante est une valeur aberrante, sur le plan opérationnel, l'analyste devrait toujours examiner ce cas. Donc, je dirais que nous devons toujours nous inquiéter "partiellement" des valeurs aberrantes.
Penguin_Knight
C'est bien même si la question peut être très basique. Tant que la question n'est pas posée sur ce site, même les questions de base sont de bonnes questions
Hotaka

Réponses:

9

Non. Lorsque les données sont classées, une valeur aberrante sera simplement reconnue comme un cas classé au-dessus (ou en dessous) du cas le moins extrême suivant. Qu'il y ait 0,01 ou 5 écarts-types entre la valeur la plus élevée et la deuxième valeur la plus extrême, ce degré de différence est rejeté lorsque les données sont classées.

En fait, l'une des nombreuses raisons pour lesquelles quelqu'un pourrait utiliser un test basé sur le classement (ou non paramétrique) est à cause des valeurs aberrantes.

Hotaka
la source
3
Et l'excellente efficacité des méthodes non paramétriques et semi-paramétriques est une raison pour ne pas pré-tester la normalité (outre la puissance insuffisante du test de normalité).
Frank Harrell
Je ne sais pas si j'accepte cette excellente réponse concise ou la réponse détaillée qui donne à réfléchir de @NickCox. J'attendrai quelques jours pour voir lequel finit avec le plus de votes!
trev
9

@ La réponse de Hotaka est tout à fait correcte. Le classement rend la transformation inutile; c'est en soi une transformation qui ignore les valeurs exactes sauf dans la mesure où elles conduisent à des différences de rang. En fait, un peu de réflexion, ou quelques exemples de calculs, montreront que les résultats après classement des logarithmes ou des racines carrées ou toute autre transformation monotone sont exactement les mêmes que ceux après classement des données d'origine.

Mais on peut en dire plus. La pensée ou

  • Soit mes données sont normalement distribuées, et je peux utiliser des procédures standard ou classiques.

  • Ou je dois recourir à des tests basés sur le classement.

est un peu austère et (on peut le suggérer) trop simplifié. Bien qu'il soit difficile de suggérer exactement ce que vous devriez faire sans voir vos données et vos objectifs précis, il existe d'autres perspectives:

  1. De nombreux utilisateurs de statistiques examinent les distributions marginales (univariées) et évaluent si elles sont proches de la normalité, mais cela peut même ne pas être pertinent. Par exemple, la normalité marginale n'est pas requise pour les procédures de type régression. Pour de nombreuses procédures, c'est le comportement des moyens, et non le comportement des données, qui est plus important et plus proche des hypothèses principales.

  2. Même (disons) un résultat significatif aux niveaux conventionnels pour un test de Shapiro-Wilk est équivoque en termes d'orientation de l'analyse ultérieure. Il dit simplement que "votre distribution est sensiblement différente d'une distribution normale". Cela n'implique pas en soi que le degré de non-normalité que vous avez rend tout ce que vous avez en tête invalide ou absurde. Cela peut simplement signifier: soyez prudent, car les hypothèses sous-jacentes ne sont pas exactement satisfaites. (En pratique, ils ne sont jamais satisfaits de toute façon.) L'habitude de cultiver est de penser que toutes les valeurs P sont des approximations. (Même en l'absence d'hypothèses sur les distributions, les hypothèses sur l'échantillonnage ou l'indépendance ou la mesure sans erreur sont généralement implicites.)

  3. Bien que de nombreux textes et cours impliquent le contraire, les statistiques non paramétriques sont une impasse glorieuse: il existe un ensemble de tests parfois utiles, mais dans la pratique, vous abandonnez la plupart des modélisations utiles qui sont au cœur des statistiques modernes.

  4. Les valeurs aberrantes sont mentionnées ici et méritent toujours une attention particulière. Ils ne devraient jamais être omis simplement parce qu'ils ne sont pas pratiques ou semblent être la raison pour laquelle les hypothèses ne sont pas satisfaites. Parfois, une analyse à une échelle transformée est la meilleure voie à suivre. Parfois, quelques valeurs aberrantes légères ne sont pas aussi problématiques que le craignent les utilisateurs moins expérimentés des statistiques. Avec de petits échantillons, les données semblent souvent irrégulières ou grumeleuses, même si le processus de génération se comporte assez bien; avec de grands échantillons, une seule valeur aberrante n'a pas besoin de dominer le reste des données.

  5. Il y a toujours la possibilité de faire les deux types de tests, par exemple t de Student et Mann-Whitney-Wilcoxon. Ils ne posent pas exactement la même question, mais il est souvent facile de voir s'ils pointent dans la même direction. Autrement dit, si à l'épreuve et à l'autre, les deux donnent des signaux clairs que deux groupes sont différents, vous avez une certaine assurance que votre conclusion est bien appuyée (et une défense contre le sceptique qui se méfie de l'une ou l'autre procédure étant donné une bouffée de non-normalité ). Si les deux tests donnent des réponses très différentes, c'est en soi une preuve utile que vous devez réfléchir très attentivement à la meilleure façon d'analyser les données. (Peut-être que cette valeur aberrante massive détermine vraiment de quelle manière la réponse sort.)

Avec l'expérience, les utilisateurs de statistiques sont souvent plus informels que les textes ou les cours ne le suggèrent. Si vous avez discuté avec eux d'une analyse, vous constaterez souvent qu'ils émettent des jugements rapides tels que "Bien sûr, les diagrammes en boîte montrent des valeurs aberrantes légères, mais avec des données comme cette analyse de la variance devraient fonctionner correctement" ou "Avec un biais qui a marqué, une échelle logarithmique est le seul choix judicieux ". Je ne pense pas que vous les trouverez souvent en choisissant des techniques selon que le test de Shapiro-Wilk est ou non significatif à . Dire quelque chose comme ça peut ne pas aider beaucoup les utilisateurs moins expérimentés, mais cela semble plus vrai que l'idée que les statistiques proposent des recettes exactes qui doivent toujours être suivies.P<0.05

Nick Cox
la source
Merci pour votre réponse détaillée. En ce qui concerne le choix de la méthode, je peux croire que la plupart des utilisateurs de statistiques sont assez exploratoires lors du premier examen de leurs données. Mais lorsqu'ils écrivent un article, ils doivent justifier la méthode qu'ils ont choisie. Je suppose que cela dépend en partie du domaine et si nous sommes plus intéressés à modéliser beaucoup de données ou à tester une hypothèse. Pour ce dernier, un Shapiro-Wilk, bien que sous-alimenté, doit être plus beau que de signaler l'asymétrie sans test, puis de procéder à un test non paramétrique.
trev
1
J'aime assez l'idée de (5), faire des tests paramétriques et non paramétriques. Mais j'ai rarement vu un article (au moins en psychologie) qui dit "voici les résultats de divers tests statistiques alternatifs". Ils choisissent simplement une méthode et signalent cela, ce qui peut être problématique, car ils peuvent simplement choisir la méthode qui leur donne un résultat significatif, comme le souligne l'article sur la science psychologique ici: bit.ly/15uTFlT
trev
Bien sûr, l'alternative de rapporter plusieurs méthodes conduira presque certainement à une certaine ambiguïté, c'est-à-dire que certaines méthodes sont importantes et d'autres non. De combien auriez-vous besoin pour conclure que vous avez un effet? 4 sur 5 significatif? Qu'en est-il de 3 sur 5?
trev
1
Vos commentaires réfléchis méritent une discussion très détaillée. Mon expérience confirme que les gens dans de nombreux domaines sont très soucieux de montrer qu'il existe une seule analyse correcte d'un ensemble de données donné, ce qu'ils ont fait.
Nick Cox