Pourquoi les liens sont-ils si difficiles dans les statistiques non paramétriques?

Mon texte non paramétrique, Statistiques pratiques non paramétriques , donne souvent des formules claires pour les attentes, les variances, les statistiques de test, etc., mais inclut la mise en garde que cela ne fonctionne que si nous ignorons les liens. Lors du calcul de la statistique U de Mann-Whitney, il est recommandé de jeter les paires liées lors de la comparaison de la plus grande.

Je comprends que les liens ne nous disent pas vraiment grand-chose sur quelle population est plus grande (si c'est ce qui nous intéresse) car aucun groupe n'est plus grand que l'autre, mais il ne semble pas que cela importerait lors du développement de distributions asymptotiques.

Pourquoi alors est-ce un tel dilemme de traiter les liens dans certaines procédures non paramétriques? Existe-t-il un moyen d'extraire des informations utiles des liens, plutôt que de simplement les jeter?

EDIT: En ce qui concerne le commentaire de @ whuber, j'ai vérifié à nouveau mes sources, et certaines procédures utilisent une moyenne de rangs au lieu de supprimer complètement les valeurs liées. Bien que cela semble plus judicieux en ce qui concerne la conservation des informations, il me semble également que cela manque de rigueur. L'esprit de la question subsiste cependant.

nonparametric ties Christopher Aden
la source

Êtes-vous en train de dire que les statistiques pratiques non paramétriques vous disent de « jeter » les données lorsqu'elles sont liées? Pourriez-vous peut-être mal interpréter ses conseils? Pourriez-vous le citer exactement?

whuber

Oui, il est possible que j'interprète mal les conseils. Du même auteur: jstor.org/stable/2284536 "Wilcoxon a suggéré de supprimer les zéros des données initialement et d'effectuer le test sur l'ensemble de données réduit. S'il n'y a pas de liens non nuls, cette procédure entraîne une conditionnelle (compte tenu du nombre de zéro) test gratuit de distribution et permet d'utiliser les tables exactes existantes de valeurs critiques. Pour cette raison, la plupart des livres sur les statistiques non paramétriques incorporent la méthode de Wilcoxon dans leur description du test "

Christopher Aden

Certes, cela fait référence au test Wilcoxon Signed Rank, mais j'ai entendu des conseils similaires utilisés dans d'autres procédures NP. En ce qui concerne l'exemple de Mann-Whitney, je suis retourné et j'ai vérifié le livre, et vous avez raison de me tromper. Avec Mann-Whitney, le livre recommande de faire la moyenne des rangs des valeurs liées, c'est-à-dire: si les rangs 6 et 7 sont liés, en donnant à chacun une valeur de 6,5.

Christopher Aden

Je vous remercie. Il existe des moyens rigoureux de rendre compte des groupes liés. Ils sont importants lorsque vous travaillez avec des données censurées (mais continues), car souvent les valeurs censurées constituent un grand groupe lié. Pour les tests Kruskal-Wallis et Wilcoxon Rank Sum, voir le chapitre 18 de RO Gilbert, * Statistical Methods for Environmental Pollution Monitoring. "Les formules impliquant des données liées peuvent devenir compliquées, mais dans certains cas (comme le test KW) tout ce que vous devez faire est de calculer une table ANOVA pour les rangs.

whuber

La plupart des travaux sur les paramètres non paramétriques ont été initialement effectués en supposant qu'il y avait une distribution continue sous-jacente dans laquelle les liens seraient impossibles (s'ils étaient mesurés avec suffisamment de précision). La théorie peut alors être basée sur les distributions de statistiques d'ordre (qui sont beaucoup plus simples sans liens) ou d'autres formules. Dans certains cas, les statistiques s'avèrent approximativement normales, ce qui rend les choses vraiment faciles. Lorsque des liens sont introduits soit parce que les données ont été arrondies, soit naturellement discrètes, les hypothèses standard ne sont pas valables. L'approximation peut toujours être assez bonne dans certains cas, mais pas dans d'autres, donc souvent la chose la plus simple à faire est de simplement avertir que ces formules ne fonctionnent pas avec des liens.

Il existe des outils pour certains des tests non paramétriques standard qui ont déterminé la distribution exacte lorsque des liens sont présents. Le package exactRankTests pour R en est un exemple.

Une façon simple de gérer les liens est d'utiliser des tests de randomisation comme les tests de permutation ou le bootstrap. Ceux-ci ne se soucient pas des distributions asymptotiques, mais utilisent les données telles quelles, les liens et tout (notez qu'avec beaucoup de liens, même ces techniques peuvent avoir une faible puissance).

Il y a quelques années (je pensais dans le Statisticien américain, mais je ne le trouve pas) un article qui discutait des idées de liens et de certaines des choses que vous pouvez en faire. Un point est que cela dépend de la question que vous posez, que faire des liens peut être très différent dans un test de supériorité par rapport à un test de non-infériorité.

Greg Snow
la source

Pourquoi les liens sont-ils si difficiles dans les statistiques non paramétriques?

Réponses: