Mon texte non paramétrique, Statistiques pratiques non paramétriques , donne souvent des formules claires pour les attentes, les variances, les statistiques de test, etc., mais inclut la mise en garde que cela ne fonctionne que si nous ignorons les liens. Lors du calcul de la statistique U de Mann-Whitney, il est recommandé de jeter les paires liées lors de la comparaison de la plus grande.
Je comprends que les liens ne nous disent pas vraiment grand-chose sur quelle population est plus grande (si c'est ce qui nous intéresse) car aucun groupe n'est plus grand que l'autre, mais il ne semble pas que cela importerait lors du développement de distributions asymptotiques.
Pourquoi alors est-ce un tel dilemme de traiter les liens dans certaines procédures non paramétriques? Existe-t-il un moyen d'extraire des informations utiles des liens, plutôt que de simplement les jeter?
EDIT: En ce qui concerne le commentaire de @ whuber, j'ai vérifié à nouveau mes sources, et certaines procédures utilisent une moyenne de rangs au lieu de supprimer complètement les valeurs liées. Bien que cela semble plus judicieux en ce qui concerne la conservation des informations, il me semble également que cela manque de rigueur. L'esprit de la question subsiste cependant.
la source
Réponses:
La plupart des travaux sur les paramètres non paramétriques ont été initialement effectués en supposant qu'il y avait une distribution continue sous-jacente dans laquelle les liens seraient impossibles (s'ils étaient mesurés avec suffisamment de précision). La théorie peut alors être basée sur les distributions de statistiques d'ordre (qui sont beaucoup plus simples sans liens) ou d'autres formules. Dans certains cas, les statistiques s'avèrent approximativement normales, ce qui rend les choses vraiment faciles. Lorsque des liens sont introduits soit parce que les données ont été arrondies, soit naturellement discrètes, les hypothèses standard ne sont pas valables. L'approximation peut toujours être assez bonne dans certains cas, mais pas dans d'autres, donc souvent la chose la plus simple à faire est de simplement avertir que ces formules ne fonctionnent pas avec des liens.
Il existe des outils pour certains des tests non paramétriques standard qui ont déterminé la distribution exacte lorsque des liens sont présents. Le package exactRankTests pour R en est un exemple.
Une façon simple de gérer les liens est d'utiliser des tests de randomisation comme les tests de permutation ou le bootstrap. Ceux-ci ne se soucient pas des distributions asymptotiques, mais utilisent les données telles quelles, les liens et tout (notez qu'avec beaucoup de liens, même ces techniques peuvent avoir une faible puissance).
Il y a quelques années (je pensais dans le Statisticien américain, mais je ne le trouve pas) un article qui discutait des idées de liens et de certaines des choses que vous pouvez en faire. Un point est que cela dépend de la question que vous posez, que faire des liens peut être très différent dans un test de supériorité par rapport à un test de non-infériorité.
la source