Un ancien collègue m'a un jour expliqué ce qui suit:
Nous appliquons généralement des tests de normalité aux résultats de processus qui, sous le zéro, génèrent des variables aléatoires qui ne sont que asymptotiquement ou presque normales (la partie "asymptotiquement" dépendant d'une quantité que nous ne pouvons pas rendre grande); À l'ère de la mémoire peu coûteuse, des mégadonnées et des processeurs rapides, les tests de normalité doivent toujours rejeter la valeur NULL de la distribution normale pour les échantillons volumineux (mais pas incroyablement volumineux). Et donc, perversement, les tests de normalité ne devraient être utilisés que pour de petits échantillons, quand ils ont vraisemblablement une puissance inférieure et un contrôle moindre sur le taux de type I.
Est-ce un argument valable? Est-ce un argument bien connu? Existe-t-il des tests bien connus pour une hypothèse nulle «plus floue» que la normalité?
la source
Réponses:
Ce n'est pas un argument. C'est un fait (un peu fort) que les tests de normalité formels rejettent toujours sur la taille énorme des échantillons avec lesquels nous travaillons aujourd'hui. Il est même facile de prouver que lorsque n devient grand, même le plus petit écart par rapport à la normalité parfaite mènera à un résultat significatif. Et comme chaque jeu de données a un certain degré d'aléatoire, aucun jeu de données ne sera un échantillon parfaitement distribué normalement. Mais dans les statistiques appliquées, la question n'est pas de savoir si les données / résidus ... sont parfaitement normaux, mais suffisamment normaux pour que les hypothèses puissent être vérifiées.
Permettez-moi d'illustrer avec le test Shapiro-Wilk . Le code ci-dessous construit un ensemble de distributions qui s'approchent de la normalité mais ne sont pas complètement normales. Ensuite, nous vérifions
shapiro.test
si un échantillon de ces distributions presque normales s'écarte de la normalité. En R:La dernière ligne vérifie quelle fraction des simulations pour chaque taille d'échantillon s'écarte de manière significative de la normalité. Ainsi, dans 87% des cas, un échantillon de 5 000 observations s'écarte considérablement de la normalité selon Shapiro-Wilks. Pourtant, si vous voyez les courbes qq, vous ne déciderez jamais d'un écart par rapport à la normalité. Ci-dessous, vous voyez à titre d'exemple les courbes qq pour un ensemble d'échantillons aléatoires
avec des valeurs p
la source
R
mise en œuvre). Mais c’est tout, cela n’a aucune incidence sur l’utilité des tests de normalité en général. L'assertion initiale que les tests de normalité rejettent toujours sur des échantillons de grande taille est tout simplement incorrecte.Lorsqu'on se demande si le test de normalité est «essentiellement inutile», il faut d'abord se demander à quoi il est censé être utile. Beaucoup de gens (du moins, beaucoup de scientifiques) comprennent mal la question à laquelle répond le test de normalité.
La question à laquelle les tests de normalité répondent: existe-t-il des preuves convaincantes d'un quelconque écart par rapport à l'idéal gaussien? Avec des ensembles de données réelles moyennement volumineux, la réponse est presque toujours oui.
La question à laquelle les scientifiques s'attendent souvent à ce que le test de normalité réponde: les données s'écartent-elles suffisamment de l'idéal gaussien pour "interdire" l'utilisation d'un test supposant une distribution gaussienne? Les scientifiques veulent souvent que le test de normalité soit l’arbitre qui décide à quel moment abandonner les tests classiques (ANOVA, etc.) et analyse plutôt les données transformées ou utilise un test non paramétrique basé sur le rang ou une approche de ré-échantillonnage ou de bootstrap. À cette fin, les tests de normalité ne sont pas très utiles.
la source
Je pense que les tests de normalité peuvent être utiles pour accompagner les examens graphiques. Ils doivent cependant être utilisés de la bonne manière. À mon avis, cela signifie que de nombreux tests populaires, tels que les tests Shapiro-Wilk, Anderson-Darling et Jarque-Bera, ne doivent jamais être utilisés.
Avant d’expliquer mon point de vue, laissez-moi faire quelques remarques:
(Dans ma définition) un test de normalité est dirigé contre une classe d'alternatives s'il est sensible aux alternatives de cette classe, mais pas aux alternatives d'autres classes. Des exemples typiques sont les tests dirigés vers des alternatives asymétriques ou kurtotiques . Les exemples les plus simples utilisent l'échantillon, l'asymétrie et le kurtosis comme statistiques de test.
On peut soutenir que les tests de normalité dirigés sont souvent préférables aux tests omnibus (tels que les tests de Shapiro-Wilk et de Jarque-Bera) car il est fréquent que seuls certains types de non-normalité concernent une procédure inférentielle particulière .
Prenons le test t de Student comme exemple. Supposons que nous ayons un échantillon iid d'une distribution avec l'asymétrie et (en excès) kurtosisSi est symétrique par rapport à sa moyenne, . et sont tous deux 0 pour la distribution normale.γ=E(X−μ)3σ3 κ=E(X−μ)4σ4−3. X γ=0 γ κ
Sous les hypothèses de régularité, nous obtenons le développement asymptotique suivant pour la cdf de la statistique de test :Tn P(Tn≤x)=Φ(x)+n−1/216γ(2x2+1)ϕ(x)−n−1x(112κ(x2−3)−118γ2(x4+2x2−3)−14(x2+3))ϕ(x)+o(n−1),
où est le cdf et est le pdf de la distribution normale standard.Φ(⋅) ϕ(⋅)
On peut vérifier par des simulations que cela est également vrai pour les petits . Ainsi, le test t de Student est sensible à l'asymétrie mais relativement robuste contre les queues épaisses, et il est raisonnable d'utiliser un test de normalité orienté vers les alternatives asymétriques avant d'appliquer le test t .n
En règle générale ( pas une loi de la nature), l'inférence sur les moyens est sensible à l'asymétrie et l'inférence sur les variances est sensible à la kurtose.
L'utilisation d'un test dirigé de normalité a l'avantage d'obtenir un pouvoir plus élevé contre des alternatives «dangereuses» et un pouvoir inférieur contre des alternatives moins «dangereuses», ce qui signifie que nous sommes moins susceptibles de rejeter la normalité en raison des écarts par rapport à la normalité pas affecter les performances de notre procédure inférentielle. La non-normalité est quantifiée de manière pertinente pour le problème à résoudre. Ce n’est pas toujours facile à faire graphiquement.
Au fur et à mesure que augmente, l'asymétrie et le kurtosis deviennent moins importants - et les tests dirigés sont susceptibles de détecter si ces quantités s'écartent de 0, même d'une petite quantité. Dans de tels cas, il semble raisonnable, par exemple, de tester si ou (en regardant le premier terme de l'expansion ci-dessus) plutôt que de savoir si . Cela résout certains des problèmes auxquels nous sommes confrontés lorsque s’agrandit.n |γ|≤1 |n−1/216γ(2z2α/2+1)ϕ(zα/2)|≤0.01 γ=0 n
la source
Les tests de normalité à mon humble avis sont absolument inutiles pour les raisons suivantes:
Sur de petits échantillons, il est fort probable que la répartition réelle de la population soit sensiblement non normale, mais le test de normalité n'est pas très efficace pour le détecter.
Sur des échantillons volumineux, des éléments tels que le test T et l'ANOVA sont assez robustes pour la non-normalité.
L’idée d’une population normalement distribuée n’est de toute façon qu’une approximation mathématique commode. Aucune des quantités généralement traitées statistiquement ne pourrait avoir des distributions avec un support de tous les nombres réels. Par exemple, les gens ne peuvent pas avoir une taille négative. Quelque chose ne peut avoir une masse négative ou une masse supérieure à celle de l'univers. Par conséquent, il est prudent de dire que rien n’est exactement distribué normalement dans le monde réel.
la source
Je pense que le pré-test de normalité (qui inclut des évaluations informelles à l'aide de graphiques) passe à côté de l'essentiel.
la source
Avant de demander si un test ou une sorte de vérification approximative de la normalité est "utile", vous devez répondre à la question qui se cache derrière la question: "Pourquoi demandez-vous?"
Par exemple, si vous souhaitez uniquement définir une limite de confiance autour de la moyenne d'un ensemble de données, les écarts par rapport à la normalité peuvent être importants ou non, en fonction de la quantité de données dont vous disposez et de leur ampleur. Cependant, les écarts par rapport à la normalité peuvent être cruciaux si vous souhaitez prédire quelle sera la valeur la plus extrême dans les observations futures ou dans la population que vous avez échantillonnée.
la source
Permettez-moi d'ajouter une petite chose:
effectuer un test de normalité sans prendre en compte son erreur alpha augmente la probabilité globale que vous effectuiez une erreur alpha.
Vous n'oublierez jamais que chaque test supplémentaire le fait tant que vous ne contrôlez pas l'accumulation des erreurs alpha. Par conséquent, une autre bonne raison de rejeter les tests de normalité.
la source
Les réponses ici ont déjà abordé plusieurs points importants. Pour résumer rapidement:
J'ajoute tout d'abord une réponse pour citer l'un de mes articles statistiques personnellement consultés le plus souvent: " L'importance des hypothèses de normalité dans les grands ensembles de données de santé publique " par Lumley et. Al. Cela vaut la peine de le lire en entier. Le résumé dit:
Pour résumer: la normalité ne vaut généralement pas la discussion ni l'attention qu'elle reçoit contrairement à l'importance de répondre à une question scientifique particulière. Si l'on souhaite résumer les différences moyennes dans les données, alors le test t et l'ANOVA ou régression linéaire sont justifiés dans un sens beaucoup plus large. Les tests basés sur ces modèles restent du niveau alpha correct, même lorsque les hypothèses de répartition ne sont pas respectées, bien que la puissance puisse être affectée négativement.
Les raisons pour lesquelles les distributions normales peuvent recevoir l'attention qu'elles méritent peuvent être pour des raisons classiques, où des tests exacts basés sur les distributions F pour les ANOVA et les distributions de Student-T pour le test T pourraient être obtenus. En réalité, parmi les nombreuses avancées scientifiques modernes, nous traitons généralement avec des ensembles de données plus volumineux que ceux rassemblés précédemment. S'il s'agit en fait d'un petit jeu de données, l'argument selon lequel ces données sont normalement distribuées ne peut pas provenir de ces données elles-mêmes: il n'y a tout simplement pas assez de puissance. Le fait de faire référence à d’autres recherches, à des réplications ou même à la biologie ou à la science du processus de mesure est, à mon avis, une approche beaucoup plus justifiée pour discuter d’un modèle de probabilité sous-tendant les données observées.
Pour cette raison, opter pour un test basé sur le rang comme solution de rechange passe à côté de l'essentiel. Toutefois, je conviens que l’utilisation d’estimateurs de variance robustes, tels que le jackknife ou le bootstrap, offre d’importantes alternatives de calcul permettant de réaliser des tests dans le cadre de diverses violations plus importantes de la spécification du modèle, telles que l’indépendance ou une distribution identique de ces erreurs.
la source
J'avais l' habitude de penser que les tests de normalité étaient complètement inutiles.
Cependant, je consulte maintenant d'autres chercheurs. Obtenir des échantillons est souvent extrêmement coûteux, et ils voudront donc faire une inférence avec n = 8, par exemple.
Dans un tel cas, il est très difficile de trouver une signification statistique avec des tests non paramétriques, mais les tests t avec n = 8 sont sensibles aux déviations par rapport à la normalité. Donc, ce que nous obtenons, c'est que nous pouvons dire "bon, conditionnellement à l'hypothèse de normalité, nous trouvons une différence statistiquement significative" (ne vous inquiétez pas, ce sont en général des études pilotes ...).
Ensuite, nous avons besoin d’un moyen d’évaluer cette hypothèse. À mi-chemin dans le camp, regarder les parcelles est une meilleure solution, mais à vrai dire, il peut y avoir beaucoup de désaccord à ce sujet, ce qui peut être très problématique si l'une des personnes qui est en désaccord avec vous est la relecteur de votre manuscrit.
À bien des égards, je pense toujours que les tests de normalité comportent de nombreuses failles: par exemple, nous devrions penser à l’erreur de type II plus qu’à l’erreur de type I. Mais elles sont nécessaires.
la source
Pour ce que cela vaut, j’avais déjà développé un échantillonneur rapide pour la distribution normale tronquée, et le test de normalité (KS) était très utile pour le débogage de la fonction. Cet échantillonneur réussit le test avec des tailles d'échantillon énormes, mais il est intéressant de noter que l'échantillonneur de ziggourat du GSL ne l'a pas fait.
la source
L'argument que vous avez donné est un avis. Je pense que l’importance des tests de normalité est de s’assurer que les données ne s’écartent pas trop de la normale. Je l'utilise parfois pour décider d'utiliser un test paramétrique par rapport à un test non paramétrique pour ma procédure d'inférence. Je pense que le test peut être utile dans des échantillons modérés ou de grande taille (lorsque le théorème de la limite centrale n’entre pas en jeu). J'ai tendance à utiliser des tests Wilk-Shapiro ou Anderson-Darling, mais sous SAS, je les ai tous et ils sont généralement assez d'accord. Sur une note différente, je pense que les procédures graphiques telles que les tracés QQ fonctionnent également bien. L'avantage d'un test formel est qu'il est objectif. Dans les petits échantillons, il est vrai que ces tests de qualité de l'ajustement n'ont pratiquement pas de puissance et cela a un sens intuitif, car un petit échantillon d'une distribution normale pourrait paraître par hasard plutôt non normal et cela est pris en compte dans le test. De plus, les asymétries élevées et les kurtoses qui distinguent de nombreuses distributions non normales des distributions normales ne sont pas facilement visibles dans les petits échantillons.
la source
Je pense qu'une approche d'entropie maximale pourrait être utile ici. Nous pouvons assigner une distribution normale parce que nous pensons que les données sont "normalement distribuées" (peu importe ce que cela signifie) ou parce que nous nous attendons à ne voir que des écarts d'environ la même Magnitude. De plus, comme la distribution normale ne contient que deux statistiques suffisantes, elle est insensible aux modifications des données qui ne modifient pas ces quantités. Donc, dans un sens, vous pouvez considérer une distribution normale comme une "moyenne" de toutes les distributions possibles avec les mêmes premier et deuxième moments. c'est l'une des raisons pour lesquelles les moindres carrés devraient fonctionner aussi bien.
la source
Je ne dirais pas que c'est inutile, mais cela dépend vraiment de l'application. Notez que vous ne connaissez jamais vraiment la distribution à partir de laquelle les données proviennent, et que vous n’avez qu’un petit nombre de réalisations. La moyenne de votre échantillon est toujours finie dans l'échantillon, mais la moyenne peut être indéfinie ou infinie pour certains types de fonctions de densité de probabilité. Considérons les trois types de distributions Levy stables, à savoir la distribution normale, la distribution de Levy et la distribution de Cauchy. La plupart de vos échantillons ne comportent pas beaucoup d'observations à la queue (c.-à-d. En dehors de la moyenne de l'échantillon). Donc, empiriquement, il est très difficile de faire la distinction entre les trois, si bien que Cauchy (à moyenne non définie) et le Levy (à moyenne infinie) pourraient facilement se faire passer pour une distribution normale.
la source
Je pense que les 2 premières questions ont reçu une réponse complète, mais je ne pense pas que la question 3 ait été abordée. De nombreux tests comparent la distribution empirique à une distribution hypothétique connue. La valeur critique du test de Kolmogorov-Smirnov est basée sur la spécification complète de F. Il peut être modifié pour tester une distribution paramétrique avec des paramètres estimés. Donc, si fuzzier signifie estimer plus de deux paramètres, alors la réponse à la question est oui. Ces tests peuvent être appliqués aux familles de 3 paramètres ou plus. Certains tests sont conçus pour avoir un meilleur pouvoir lors des tests sur une famille spécifique de distributions. Par exemple, lors des tests de normalité, les tests d'Anderson-Darling ou de Shapiro-Wilk ont une puissance supérieure à celle de KS ou de chi carré lorsque la distribution supposée nulle est normale.
la source
Les tests où "quelque chose" important pour l'analyse est soutenu par des valeurs p élevées sont, à mon avis, erronés. Comme d'autres l'ont souligné, pour les grands ensembles de données, une valeur p inférieure à 0,05 est assurée. Ainsi, le test consiste essentiellement à "récompenser" les ensembles de données petits et flous et à "récompenser" le manque de preuves. Quelque chose comme qq parcelles sont beaucoup plus utiles. Le désir des nombres durs de décider de ce genre de chose (oui / non, normal / pas normal) ne tient toutefois pas compte du fait que la modélisation est en partie un art et que les hypothèses sont réellement appuyées.
la source
Une bonne utilisation du test de normalité qui, à mon avis, n’a pas été mentionnée consiste à déterminer si l’utilisation de scores z est acceptable. Supposons que vous ayez sélectionné un échantillon aléatoire d'une population et que vous souhaitiez connaître la probabilité de sélectionner un individu aléatoire de la population et obtenir une valeur de 80 ou plus. Cela ne peut être fait que si la distribution est normale, car pour utiliser les scores z, l'hypothèse est que la distribution de la population est normale.
Mais alors je suppose que je peux voir cela être discutable aussi ...
la source