Comment vérifier la distribution normale à l'aide d'Excel pour effectuer un test t?

21

Je veux savoir comment vérifier la normalité d'un ensemble de données dans Excel, juste pour vérifier que les exigences pour l'utilisation d'un test t sont remplies .

Pour la queue droite, est-il approprié de simplement calculer une moyenne et un écart-type, ajoutez 1, 2 et 3 écarts-types à la moyenne pour créer une plage, puis comparez-la à la normale 68/95 / 99,7 pour la distribution normale standard après avoir utilisé la fonction norm.dist dans excel pour tester chaque valeur d'écart type.

Ou existe-t-il une meilleure façon de tester la normalité?

Eudora
la source

Réponses:

15

Vous avez la bonne idée. Cela peut être fait de manière systématique, globale et avec des calculs relativement simples. Un graphique des résultats est appelé un graphique de probabilité normale (ou parfois un graphique PP). De là, vous pouvez voir beaucoup plus de détails que ce qui apparaît dans d'autres représentations graphiques, en particulier les histogrammes , et avec un peu de pratique, vous pouvez même apprendre à déterminer des moyens de ré-exprimer vos données pour les rapprocher de la normale dans les situations où cela est justifié.

Voici un exemple:

Feuille de calcul avec graphique de probabilité

Les données sont dans la colonne A(et nommées Data). Le reste est tout le calcul, bien que vous puissiez contrôler la valeur de "rang de charnière" utilisée pour ajuster une ligne de référence au tracé.

Ce graphique est un nuage de points comparant les données aux valeurs qui seraient atteintes par des nombres tirés indépendamment d'une distribution normale standard. Lorsque les points s'alignent le long de la diagonale, ils sont proches de Normal; les écarts horizontaux (le long de l'axe des données) indiquent des écarts par rapport à la normalité. Dans cet exemple, les points sont remarquablement proches de la ligne de référence; l'écart le plus important se produit à la valeur la plus élevée, qui est d'environ unité à gauche de la ligne. Ainsi, nous voyons d'un coup d'œil que ces données sont très proches de Normalement distribuées mais ont peut-être une queue droite légèrement "légère". C'est parfaitement bien pour appliquer un test t.1.5

Les valeurs de comparaison sur l'axe vertical sont calculées en deux étapes. Tout d'abord, chaque valeur de données est classée de à , la quantité de données (indiquée dans le champ dans la cellule ). Celles-ci sont converties proportionnellement en valeurs comprises entre et . Une bonne formule à utiliser est (Voir http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm pour savoir d'où cela vient.) Ensuite, ceux-ci sont convertis en valeurs normales standard via la fonction. Ces valeurs apparaissent dans la colonne. Le graphique à droite est un nuage de points XY de1nCountF201(rank1/6)/(n+2/3).NormSInvNormal scoreNormal Scorecontre les données. (Dans certaines références, vous verrez la transposition de ce tracé, qui est peut-être plus naturel, mais Excel préfère placer la colonne la plus à gauche sur l'axe horizontal et la colonne la plus à droite sur l'axe vertical, donc je l'ai laissé faire ce qu'il préfère. )

Feuille de calcul: calcul du score normal

(Comme vous pouvez le voir, j'ai simulé ces données avec des tirages aléatoires indépendants d'une distribution normale avec une moyenne de et un écart-type Il n'est donc pas surprenant que le graphique de probabilité soit si joli.) Il n'y a vraiment que deux formules à taper, que vous propagez vers le bas pour correspondre aux données: elles apparaissent dans les cellules et dépendent de la valeur calculée dans la cellule . C'est vraiment tout ce qu'il y a, à part le complot.52B2:C2CountF2

Le reste de cette feuille n'est pas nécessaire mais il est utile pour juger le graphique: il fournit une estimation robuste d'une ligne de référence. Pour ce faire, sélectionnez deux points également éloignés de la gauche et de la droite de l'intrigue et connectez-les avec une ligne. Dans l'exemple de ces points sont le troisième plus bas et au troisième rang, tel que déterminé par le dans la cellule, . En prime, sa pente et son ordonnée à l'origine sont des estimations robustes de l'écart type et de la moyenne des données, respectivement.3Hinge RankF3

Pour tracer la ligne de référence, deux points extrêmes sont calculés et ajoutés au tracé: leur calcul s'effectue en colonnes I:J, étiquetées Xet Y.

Feuille de calcul: calcul de la ligne de référence

whuber
la source
Pour les formules du Col B, expliqueriez-vous la raison d'ajouter 1 et de diviser par 6 et 3 («+ 1/6» et «+ 1/3»)? Y a-t-il également une raison pour laquelle vous avez choisi de diviser par 6 dans la cellule de classement de charnière?
@Michael Bonnes questions. est un moyen simple et bien connu d'établir des points de tracé de probabilité. Je me souviens que John Tukey avait recommandé cela dans son livre, EDA . La formule du rang de charnière est mystérieuse: j'aurais dû expliquer que je ramasse deux points à égale distance des extrémités aux centiles et . Tout multiplicateur sensiblement supérieur à et inférieur à fonctionnerait. est populaire: il correspond aux quartiles. Est donc , correspondant à 1 SD pour une distribution normale. 100 × 1 / 6 100 x 5 / 6 0 1 / 2 1 / 4 0,161/6100×1/6100×5/601/21/40.16
blanc
La formule (rang + 1/6) / (n + 1/3) ne semble pas être symétrique comme on pourrait s'y attendre. par exemple, avec l'observation du milieu de 3, le rang est 2 et cela suggérerait un centile correspondant de 0,65 plutôt que ce qui semble naturel à prendre pour l'observation du milieu (0,5). Ai-je raté quelque chose d'évident? [J'ai vu Tukey utiliser plusieurs formules différentes à différents endroits, y compris (i-1/3) / (n + 1/3). La formule à votre lien s'inscrit dans le schéma commun (ia) / (n + 1-2a) mais la formule que vous donnez dans votre réponse ne le fait pas]
Glen_b -Reinstate Monica
@Glen_b Merci d'avoir attrapé cela. J'avais mal cité la formule. Ma source est (ma propre page!) Sur quantdec.com/envstats/notes/class_02/… , où la formule correcte est donnée et justifiée: généralement on utilise où est le rang (de à ) et est généralement un nombre compris entre et , souvent . Cela donne comme formule souhaitée. ( 1/3 donne la formule Tukey que vous citez.) J'ai corrigé la formule et l'illustration Excel. r1na011/6(r-1/6)/(n+2/3)a=1/3
ran+12a
r1na011/6(r1/6)/(n+2/3)a=1/3
blanc
5

Vous pouvez tracer un histogramme à l'aide du pack d'outils d'analyse de données dans Excel . Les approches graphiques sont plus susceptibles de communiquer le degré de non-normalité, qui est généralement plus pertinent pour les tests d'hypothèse (voir cette discussion sur la normalité ).

Le pack d'outils d'analyse de données dans Excel vous donnera également une asymétrie et un kurtosis si vous demandez des statistiques descriptives et choisissez l'option "Statistiques récapitulatives". Vous pouvez par exemple considérer que les valeurs d'asymétrie au-dessus de plus ou moins un sont une forme de non-normalité substantielle.

Cela dit, l'hypothèse des tests t est que les résidus sont normalement distribués et non la variable. En outre, ils sont également assez robustes, de sorte que même avec des quantités assez importantes de non-normalité, les valeurs de p sont toujours assez valides.

Jeromy Anglim
la source
4

Cette question est également à la limite de la théorie statistique - le test de normalité avec des données limitées peut être discutable (même si nous l'avons tous fait de temps en temps).

Comme alternative, vous pouvez regarder les coefficients de kurtosis et d'asymétrie. De Hahn et Shapiro: Statistical Models in Engineering, quelques informations sont fournies sur les propriétés Beta1 et Beta2 (pages 42 à 49) et la Fig 6-1 de la page 197. Des théories supplémentaires derrière cela peuvent être trouvées sur Wikipedia (voir Pearson Distribution).

Fondamentalement, vous devez calculer les propriétés dites Beta1 et Beta2. Un Beta1 = 0 et Beta2 = 3 suggère que l'ensemble de données se rapproche de la normalité. Il s'agit d'un test approximatif, mais avec des données limitées, on pourrait faire valoir que tout test pourrait être considéré comme approximatif.

Beta1 est liée aux moments 2 et 3, ou à la variance et à l' asymétrie , respectivement. Dans Excel, ce sont VAR et SKEW. Où ... est votre tableau de données, la formule est:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 est liée aux moments 2 et 4, ou à la variance et au kurtosis , respectivement. Dans Excel, ce sont VAR et KURT. Où ... est votre tableau de données, la formule est:

Beta2 = KURT(...)/VAR(...)^2

Ensuite, vous pouvez les comparer aux valeurs de 0 et 3, respectivement. Cela présente l'avantage d'identifier potentiellement d'autres distributions (y compris les distributions Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Par exemple, la plupart des distributions couramment utilisées telles que Uniforme, Normale, t de Student, Bêta, Gamma, Exponentielle et Log-Normal peuvent être indiquées à partir de ces propriétés:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Celles-ci sont illustrées dans Hahn et Shapiro Fig 6-1.

Certes, c'est un test très difficile (avec quelques problèmes) mais vous voudrez peut-être le considérer comme une vérification préliminaire avant de passer à une méthode plus rigoureuse.

Il existe également des mécanismes d'ajustement pour le calcul de Beta1 et Beta2 où les données sont limitées - mais c'est au-delà de ce poste.

AsymLabs
la source
Une grande partie de ce matériel peut bien fonctionner pour de grands ensembles de données et je suis d'accord avec votre évaluation initiale selon laquelle les tests de normalité peuvent être limités ou discutables avec de petits ensembles de données. Mais étant donné l' énorme variabilité de l'asymétrie et du kurtosis, il semblerait que tout effort pour identifier le type de distribution sous-jacente sur la base de ces statistiques serait encore plus discutable et moins certain. Par conséquent, cette approche ne serait-elle pas (au mieux) trompeuse même en tant que contrôle préliminaire?
whuber
1
Il est peut-être préférable de qualifier davantage la méthode: Hahn et Shapiro (comme mentionné ci-dessus) conseillent de faire preuve de prudence, en particulier lorsque la taille de l'échantillon est inférieure à 200 - et recommandent que cela soit suivi d'une vérification plus approfondie, comme un tableau des fréquences. qui compare la distribution ajustée avec les données réelles. Mais à mon avis, c'est une méthode utile qui peut suggérer où les données pourraient se situer dans un spectre de possibilités. Je l'ai utilisé sur des ensembles de données qui ne sont pas inférieurs à environ 3000 et les ai intégrés dans un logiciel de simulation informatique où il s'est avéré utile.
AsymLabs
Je peux voir votre méthode donner des informations utiles avec des ensembles de données de 3000 ou plus. Cependant, il n'est pas nécessaire d'effectuer des tests de distribution pour évaluer l'applicabilité d'un test t de la moyenne.
whuber
Que l'on considère cela comme une technique utile, comme moi, ou autrement, comme cela semble être votre avis, il s'agit néanmoins d'une alternative rapide et établie de longue date (par Pearson) au test de normalité (et à l'application Students-t) dans le contexte de ce fil. S'il vous plaît, ne vous méprenez pas, je reconnais et suis d'accord avec vos préoccupations. Mais nous serions tous les deux d'accord, n'est-ce pas, que sans informations préalables, essayer d'établir si une population entière peut être modélisée sur un gaussien à partir d'un très petit échantillon de données est un tir dans le noir au mieux avec n'importe quelle méthode, et au pire est dangereux.
AsymLabs
1
C'est vrai. Tout ce que je dis, c'est que s'il est dangereux d'essayer, à partir d'un petit échantillon, de tester si la population est gaussienne, alors il doit être au moins aussi dangereux d'utiliser l'asymétrie et le kurtosis pour identifier quelle pourrait être la distribution sous-jacente! En fait, il semble qu'une telle tentative serait en fait pire, car elle repose sur des statistiques instables comme le kurtosis. Bien que le système de Pearson puisse être un guide puissant pour aider les gens à identifier les distributions possibles, il fournit moins d'informations que des affichages graphiques même limités comme les histogrammes.
whuber