Comment appliquer correctement le test post-hoc Nemenyi après le test de Friedman

11

Je compare les performances de plusieurs algorithmes sur plusieurs ensembles de données. Comme ces mesures de performances ne sont pas garanties d'être distribuées normalement, j'ai choisi le test de Friedman avec le test post-hoc de Nemenyi basé sur Demšar (2006) .

J'ai ensuite trouvé un autre article qui, en plus de suggérer d'autres méthodes comme le test Quade avec le test post-hoc Shaffer subséquent, applique le test Nemenyi différemment.

Comment appliquer correctement le test post-hoc Nemenyi?

1. En utilisant la statistique de la plage Studentized?

Dans l'article de Demšar, il dit de rejeter l'hypothèse nulle (pas de différence de performance de deux algorithmes) si la différence de rang moyenne est supérieure à la distance critique CD avec

CD=qαk(k+1)6N

"où les valeurs critiques qα sont basées sur la statistique de la plage Studentized divisée par "2.

Après quelques recherches, j'ai découvert que vous pouvez rechercher ces "valeurs critiques" pour certains alphas, par exemple dans un tableau pourα=0.05 , pour des degrés de liberté infinis (au bas de chaque tableau).

2. ou en utilisant la distribution normale?

Juste au moment où je pensais que je savais quoi faire, j'ai trouvé un autre papier qui m'a de nouveau dérouté, car ils n'utilisaient que la distribution normale. Demšar déclare une chose similaire à la page 12:

Les statistiques de test pour comparer les i-ème et j-ème classi fi cateurs à l'aide de ces méthodes sont La valeur z est utilisée pour trouver la probabilité correspondante à partir du tableau de distribution normale, qui est ensuite comparée à un approprié . Les tests diffèrent dans la façon dont ils ajustent la valeur de pour compenser les comparaisons multiples.

z=(RiRj)k(k+1)6N
αα

Dans ce paragraphe, il parlait de comparer tous les algorithmes à un algorithme de contrôle, mais la remarque "diffère dans la façon dont ils s'ajustent ... pour compenser les comparaisons multiples" suggère que cela devrait également être valable pour le test de Nemenyi.

Donc, ce qui me semble logique, c'est de calculer la valeur p en fonction de la statistique de test , qui est normalement distribuée, et de corriger celle-ci en divisant par .zk(k1)/2

Cependant, cela donne des différences de rang complètement différentes pour rejeter l'hypothèse nulle. Et maintenant je suis bloqué et je ne sais pas quelle méthode appliquer. Je penche fortement vers celui qui utilise la distribution normale , car c'est plus simple et plus logique pour moi. Je n'ai pas non plus besoin de rechercher des valeurs dans les tableaux et je ne suis pas lié à certaines valeurs de signification.

Là encore, je n'ai jamais travaillé avec la statistique de gamme étudiée et je ne la comprends pas.

Sentinelle
la source

Réponses:

5

Je viens également de commencer à examiner cette question.

Comme mentionné précédemment, lorsque nous utilisons la distribution normale pour calculer les valeurs de p pour chaque test, ces valeurs de p ne prennent pas en compte les tests multiples. Pour le corriger et contrôler le taux d'erreur familial, nous avons besoin de quelques ajustements. Bonferonni, c'est-à-dire la division du niveau de signification ou la multiplication des valeurs p brutes par le nombre de tests, n'est qu'une correction possible. Il existe un grand nombre d'autres corrections de valeurs p de tests multiples qui sont dans de nombreux cas moins conservatrices.

Ces corrections de p-value ne tiennent pas compte de la structure spécifique des tests d'hypothèse.

Je connais mieux la comparaison par paire des données originales au lieu des données transformées par rang comme dans les tests de Kruskal-Wallis ou Friedman. Dans ce cas, qui est le test Tukey HSD, la statistique de test pour la comparaison multiple est distribuée en fonction de la distribution de l'étendue étudiée, qui est la distribution de toutes les comparaisons par paires sous l'hypothèse d'échantillons indépendants. Elle est basée sur des probabilités de distribution normale multivariée qui pourraient être calculées par intégration numérique mais sont généralement utilisées à partir de tableaux.

Ma conjecture, puisque je ne connais pas la théorie, est que la distribution de l'étendue étudiée peut être appliquée au cas des tests de classement de la même manière que dans les comparaisons par paires de Tukey HSD.

Ainsi, l'utilisation de (2) distribution normale plus de multiples corrections de valeurs de p de test et l'utilisation de (1) distributions de plage étudiées sont deux façons différentes d'obtenir une distribution approximative des statistiques de test. Cependant, si les hypothèses relatives à l'utilisation de la distribution de l'étendue étudiée sont satisfaites, elles devraient fournir une meilleure approximation car elles sont conçues pour le problème spécifique de toutes les comparaisons par paires.

Josef
la source
1

Pour autant que je sache, en comparant seulement 2 algorithmes, Demšar suggère le test de classement signé par Wilcoxon plutôt que Friedman + posthoc. Je suis, malheureusement, aussi confuse que vous quand il s'agit de déchiffrer ce que la division de demšar par k-1 est censée signifier.

5xum
la source
1
La division par (k-1) consiste à comparer plusieurs algorithmes à une méthode de contrôle. Mais c'est un chacun contre chacun, donc NxN. Je peux comprendre la partie qui divise, mais la relation avec la distribution de l'étendue Studentized est au-delà de ma compréhension.
Sentry
@Sentry: Vous devez multiplier avec le facteur d'ajustement ici, pas multiplier. Veuillez voir ma réponse ci-dessus.
Chris
0

Je suis également tombé sur la question de savoir s'il fallait calculer la valeur p à partir d'une distribution t normale ou étudiée. Malheureusement, je ne peux toujours pas y répondre, car différents articles communiquent différentes méthodes.

Néanmoins, pour calculer les valeurs p ajustées, vous devez multiplier la valeur p non corrigée par le facteur d'ajustement, par exemple p * (k-1) en cas de comparaison avec une méthode de contrôle ou p * ((k * (k-1 )) / 2) pour les comparaisons nxn.

Ce que vous devez diviser par le facteur d'ajustement est la valeur alpha, par rapport aux p non ajustés.

Chris
la source