Pourquoi le test F pour la différence de variance est-il si sensible à l'hypothèse d'une distribution normale, même pour un grand ?
J'ai essayé de chercher sur le Web et j'ai visité la bibliothèque, mais rien de tout cela n'a donné de bonnes réponses. Il dit que le test est très sensible pour violation de l'hypothèse de distribution normale, mais je ne comprends pas pourquoi. Quelqu'un at-il une bonne réponse à cela?
normality-assumption
f-test
Magnus Johannesen
la source
la source
Réponses:
Je suppose que vous voulez dire le test F pour le rapport des variances lorsque vous testez une paire de variances d'échantillon pour l'égalité (parce que c'est la plus simple qui est assez sensible à la normalité; le test F pour ANOVA est moins sensible)
Si vos échantillons sont tirés de distributions normales, la variance de l'échantillon a une distribution chi carré mise à l'échelle
Imaginez qu'au lieu de données tirées de distributions normales, vous ayez une distribution plus lourde que la normale. Ensuite, vous obtiendriez trop de grandes variances par rapport à cette distribution chi carré mise à l'échelle, et la probabilité que la variance de l'échantillon atteigne l'extrême droite dépend très bien des queues de la distribution à partir de laquelle les données ont été tirées =. (Il y aura également trop de petites variations, mais l'effet est un peu moins prononcé)
Maintenant, si les deux échantillons sont tirés de cette distribution à queue plus lourde, la plus grande queue sur le numérateur produira un excès de grandes valeurs F et la plus grande queue sur le dénominateur produira un excès de petites valeurs F (et vice versa pour la queue gauche)
Ces deux effets auront tendance à conduire au rejet dans un test bilatéral, même si les deux échantillons ont la même variance . Cela signifie que lorsque la vraie distribution est plus lourde que la normale, les niveaux de signification réels ont tendance à être plus élevés que nous le souhaitons.
Inversement, le prélèvement d'un échantillon à partir d'une distribution à queue plus claire produit une distribution des variances d'échantillon qui est trop courte - les valeurs de variance ont tendance à être plus "intermédiaires" que celles obtenues avec des données provenant de distributions normales. Encore une fois, l'impact est plus fort dans la queue bien supérieure que dans la queue inférieure.
Maintenant, si les deux échantillons sont tirés de cette distribution à queue plus claire, cela se traduit par un excès de valeurs F près de la médiane et trop peu dans l'une ou l'autre queue (les niveaux de signification réels seront inférieurs à ceux souhaités).
Ces effets ne semblent pas nécessairement beaucoup diminuer avec une plus grande taille d'échantillon; dans certains cas, cela semble empirer.
À titre d'illustration partielle, voici 10000 variances d'échantillon (pourn=10 ) pour les distributions normales, t5 et uniformes, mises à l'échelle pour avoir la même moyenne qu'un χ29 :
Il est un peu difficile de voir la queue lointaine car elle est relativement petite par rapport au pic (et pour let5 les observations dans la queue s'étendent assez loin devant où nous avons tracé), mais nous pouvons voir quelque chose de l'effet sur la distribution sur la variance. Il est peut-être encore plus instructif de les transformer par l'inverse du chi carré cdf,
qui dans le cas normal semble uniforme (comme il se doit), dans le cas t a un grand pic dans la queue supérieure (et un plus petit pic dans la queue inférieure) et dans le cas uniforme est plus semblable à une colline mais avec un large pic autour de 0,6 à 0,8 et les extrêmes ont une probabilité beaucoup plus faible qu'ils ne le devraient si nous échantillonnions à partir de distributions normales.
Il y aurait de nombreux autres cas à étudier pour une étude complète, mais cela donne au moins une idée du type et de la direction de l'effet, ainsi que de la manière dont il se produit.
la source
Comme Glen_b l' a brillamment illustré dans ses simulations, le test F pour un rapport de variances est sensible aux queues de la distribution. La raison en est que la variance d'une variance d'échantillon dépend du paramètre de kurtosis, et donc que la kurtosis de la distribution sous-jacente a un fort effet sur la distribution du rapport des variances d'échantillon.
Dans le cas particulier d'une distribution méso-catalytique (par exemple, la distribution normale), vous avezκ = 3 , ce qui donne les degrés de liberté standard D Fn= n - 1 et D FC= N- n .
Bien que la distribution du rapport de variance soit sensible à la kurtosis sous-jacente, elle n'est en fait pas très sensible à la normalité en soi . Si vous utilisez une distribution mésocytique avec une forme différente de la normale, vous constaterez que l'approximation de la distribution F standard fonctionne assez bien. Dans la pratique, le kurtosis sous-jacent est inconnu, donc la mise en œuvre de la formule ci-dessus nécessite la substitution d'un estimateurκ^ . Avec une telle substitution, l'approximation devrait fonctionner assez bien.
la source