Je veux savoir comment vérifier la normalité d'un ensemble de données dans Excel, juste pour vérifier que les exigences pour l'utilisation d'un test t sont remplies .
Pour la queue droite, est-il approprié de simplement calculer une moyenne et un écart-type, ajoutez 1, 2 et 3 écarts-types à la moyenne pour créer une plage, puis comparez-la à la normale 68/95 / 99,7 pour la distribution normale standard après avoir utilisé la fonction norm.dist dans excel pour tester chaque valeur d'écart type.
Ou existe-t-il une meilleure façon de tester la normalité?
normal-distribution
excel
Eudora
la source
la source
Réponses:
Vous avez la bonne idée. Cela peut être fait de manière systématique, globale et avec des calculs relativement simples. Un graphique des résultats est appelé un graphique de probabilité normale (ou parfois un graphique PP). De là, vous pouvez voir beaucoup plus de détails que ce qui apparaît dans d'autres représentations graphiques, en particulier les histogrammes , et avec un peu de pratique, vous pouvez même apprendre à déterminer des moyens de ré-exprimer vos données pour les rapprocher de la normale dans les situations où cela est justifié.
Voici un exemple:
Les données sont dans la colonne
A
(et nomméesData
). Le reste est tout le calcul, bien que vous puissiez contrôler la valeur de "rang de charnière" utilisée pour ajuster une ligne de référence au tracé.Ce graphique est un nuage de points comparant les données aux valeurs qui seraient atteintes par des nombres tirés indépendamment d'une distribution normale standard. Lorsque les points s'alignent le long de la diagonale, ils sont proches de Normal; les écarts horizontaux (le long de l'axe des données) indiquent des écarts par rapport à la normalité. Dans cet exemple, les points sont remarquablement proches de la ligne de référence; l'écart le plus important se produit à la valeur la plus élevée, qui est d'environ unité à gauche de la ligne. Ainsi, nous voyons d'un coup d'œil que ces données sont très proches de Normalement distribuées mais ont peut-être une queue droite légèrement "légère". C'est parfaitement bien pour appliquer un test t.1,5
Les valeurs de comparaison sur l'axe vertical sont calculées en deux étapes. Tout d'abord, chaque valeur de données est classée de à , la quantité de données (indiquée dans le champ dans la cellule ). Celles-ci sont converties proportionnellement en valeurs comprises entre et . Une bonne formule à utiliser est (Voir http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm pour savoir d'où cela vient.) Ensuite, ceux-ci sont convertis en valeurs normales standard via la fonction. Ces valeurs apparaissent dans la colonne. Le graphique à droite est un nuage de points XY de1 n 0 1 ( Rang - 1 / 6 ) / ( n + deux / 3 ) .
Count
F2
NormSInv
Normal score
Normal Score
contre les données. (Dans certaines références, vous verrez la transposition de ce tracé, qui est peut-être plus naturel, mais Excel préfère placer la colonne la plus à gauche sur l'axe horizontal et la colonne la plus à droite sur l'axe vertical, donc je l'ai laissé faire ce qu'il préfère. )(Comme vous pouvez le voir, j'ai simulé ces données avec des tirages aléatoires indépendants d'une distribution normale avec une moyenne de et un écart-type Il n'est donc pas surprenant que le graphique de probabilité soit si joli.) Il n'y a vraiment que deux formules à taper, que vous propagez vers le bas pour correspondre aux données: elles apparaissent dans les cellules et dépendent de la valeur calculée dans la cellule . C'est vraiment tout ce qu'il y a, à part le complot.5 2
B2:C2
Count
F2
Le reste de cette feuille n'est pas nécessaire mais il est utile pour juger le graphique: il fournit une estimation robuste d'une ligne de référence. Pour ce faire, sélectionnez deux points également éloignés de la gauche et de la droite de l'intrigue et connectez-les avec une ligne. Dans l'exemple de ces points sont le troisième plus bas et au troisième rang, tel que déterminé par le dans la cellule, . En prime, sa pente et son ordonnée à l'origine sont des estimations robustes de l'écart type et de la moyenne des données, respectivement.3
Hinge Rank
F3
Pour tracer la ligne de référence, deux points extrêmes sont calculés et ajoutés au tracé: leur calcul s'effectue en colonnes
I:J
, étiquetéesX
etY
.la source
Vous pouvez tracer un histogramme à l'aide du pack d'outils d'analyse de données dans Excel . Les approches graphiques sont plus susceptibles de communiquer le degré de non-normalité, qui est généralement plus pertinent pour les tests d'hypothèse (voir cette discussion sur la normalité ).
Le pack d'outils d'analyse de données dans Excel vous donnera également une asymétrie et un kurtosis si vous demandez des statistiques descriptives et choisissez l'option "Statistiques récapitulatives". Vous pouvez par exemple considérer que les valeurs d'asymétrie au-dessus de plus ou moins un sont une forme de non-normalité substantielle.
Cela dit, l'hypothèse des tests t est que les résidus sont normalement distribués et non la variable. En outre, ils sont également assez robustes, de sorte que même avec des quantités assez importantes de non-normalité, les valeurs de p sont toujours assez valides.
la source
Cette question est également à la limite de la théorie statistique - le test de normalité avec des données limitées peut être discutable (même si nous l'avons tous fait de temps en temps).
Comme alternative, vous pouvez regarder les coefficients de kurtosis et d'asymétrie. De Hahn et Shapiro: Statistical Models in Engineering, quelques informations sont fournies sur les propriétés Beta1 et Beta2 (pages 42 à 49) et la Fig 6-1 de la page 197. Des théories supplémentaires derrière cela peuvent être trouvées sur Wikipedia (voir Pearson Distribution).
Fondamentalement, vous devez calculer les propriétés dites Beta1 et Beta2. Un Beta1 = 0 et Beta2 = 3 suggère que l'ensemble de données se rapproche de la normalité. Il s'agit d'un test approximatif, mais avec des données limitées, on pourrait faire valoir que tout test pourrait être considéré comme approximatif.
Beta1 est liée aux moments 2 et 3, ou à la variance et à l' asymétrie , respectivement. Dans Excel, ce sont VAR et SKEW. Où ... est votre tableau de données, la formule est:
Beta2 est liée aux moments 2 et 4, ou à la variance et au kurtosis , respectivement. Dans Excel, ce sont VAR et KURT. Où ... est votre tableau de données, la formule est:
Ensuite, vous pouvez les comparer aux valeurs de 0 et 3, respectivement. Cela présente l'avantage d'identifier potentiellement d'autres distributions (y compris les distributions Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Par exemple, la plupart des distributions couramment utilisées telles que Uniforme, Normale, t de Student, Bêta, Gamma, Exponentielle et Log-Normal peuvent être indiquées à partir de ces propriétés:
Celles-ci sont illustrées dans Hahn et Shapiro Fig 6-1.
Certes, c'est un test très difficile (avec quelques problèmes) mais vous voudrez peut-être le considérer comme une vérification préliminaire avant de passer à une méthode plus rigoureuse.
Il existe également des mécanismes d'ajustement pour le calcul de Beta1 et Beta2 où les données sont limitées - mais c'est au-delà de ce poste.
la source