Quels sont les tests statistiques standard pour voir si les données suivent des distributions exponentielles ou normales?

12

Quels sont les tests statistiques standard pour voir si les données suivent des distributions exponentielles ou normales?

smo
la source
2
Le meilleur test dépend probablement de la raison exacte pour laquelle vous testez la normalité / exponentielle (donc certains antécédents seraient utiles), mais vous pouvez toujours utiliser le test de Kolmogorov Smirnov pour tester si un ensemble de données donné correspond à une distribution prédéfinie ( en.wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Il existe de nombreuses méthodes utilisées pour la distribution normale en particulier: en.wikipedia.org/wiki/Normality_test
Macro
Les variables dont je traite sont susceptibles de suivre des distributions normales ou exponentielles. De plus, j'ai un facteur dont je ne me soucie pas. Cependant, cela impose certaines variabilités à mes données. Par conséquent, je voudrais normaliser les variables pour supprimer l'effet de ce facteur de nuisance. J'ai donc pensé qu'il valait mieux normaliser chaque variable en fonction de sa distribution sous-jacente. C'est pourquoi j'ai besoin d'un test pour décider entre ces deux distributions.
smo
1
Que signifie normaliser dans cette phrase: j'ai pensé qu'il valait mieux normaliser chaque variable en fonction de sa distribution sous-jacente ?
Macro
2
Bien qu'il ne s'agisse pas d'un test, les tracés QQ sont géniaux pour faire une inspection intuitive rapide pour savoir si vos données correspondent à une distribution.
naught101

Réponses:

13

Il semble que vous essayez de décider de modéliser vos données en utilisant la distribution normale ou exponentielle. Cela me semble quelque peu étrange, car ces distributions sont très différentes les unes des autres.

La distribution normale est symétrique tandis que la distribution exponentielle est fortement asymétrique vers la droite, sans valeurs négatives. Généralement, un échantillon de la distribution exponentielle contiendra de nombreuses observations relativement proches de et quelques observations qui s'écartent très à droite de . Cette différence est souvent facile à voir graphiquement.000

Voici un exemple où j'ai simulé observations à partir d'une distribution normale avec moyenne et variance et une distribution exponentielle avec moyenne et variance :2 4 2 4n=1002424

Normal vs exponentiel: données simulées

La symétrie de la distribution normale et l'asymétrie de l'exponentielle peuvent être observées à l'aide d'histogrammes, de boîtes à moustaches et de diagrammes de dispersion, comme illustré dans la figure ci-dessus.

Un autre outil très utile est un QQ-plot . Dans l'exemple ci-dessous, les points doivent approximativement suivre la ligne si l'échantillon provient d'une distribution normale. Comme vous pouvez le voir, c'est le cas pour les données normales, mais pas pour les données exponentielles.

Graphiques QQ pour les données simulées

Si l'examen graphique pour une raison quelconque ne vous suffit pas, vous pouvez toujours utiliser un test pour déterminer si votre distribution est normale ou exponentielle. Étant donné que la distribution normale est une famille d'échelles et d'emplacements, vous voudrez utiliser un test invariant en cas de changement d'échelle et d'emplacement (c'est-à-dire que le résultat du test ne devrait pas changer si vous changez vos mesures de pouces en centimètres ou ajoutez à toutes vos observations).+1

Lorsque l'hypothèse nulle est que la distribution est normale et l'hypothèse alternative est qu'elle est exponentielle, le test invariant de localisation et d'échelle le plus puissant est donné par la statistique où est la moyenne de l'échantillon, est la plus petite observation de l'échantillon et est l'écart type de l'échantillon. La normalité est rejetée en faveur de l'exponentialité si est trop grand.ˉ x x(1)sTE,N

TE,N=x¯x(1)s
x¯x(1)sTE,N

Ce test est en fait une version unilatérale du test de Grubbs pour les valeurs aberrantes . Vous trouverez cela implémenté dans la plupart des logiciels statistiques (mais assurez-vous que vous utilisez la bonne version - il existe plusieurs statistiques de test alternatives utilisées pour le test aberrant!).

La référence pour étant le test le plus puissant:TE,N Section 4.2.4 de Test de normalité par HC Thode.

MånsT
la source
Le PO vous a demandé si vous testez la normalité quel test choisiriez-vous adn dans une situation distincte si vous testez exponentiellement quel test utiliseriez-vous. Je n'ai pas lu la déclaration selon laquelle il proposait d'essayer les deux tests sur le même ensemble de données.
Michael R. Chernick
Je l'ai interprété de cette façon, car dans un commentaire complémentaire à la question, le PO a écrit: "Les variables dont je traite sont susceptibles de suivre des distributions normales ou exponentielles. [...] C'est pourquoi j'ai besoin d'un test pour décider entre ces deux distributions. "
MånsT
Je ne l'ai pas remarqué. Dans ce cas, votre réponse est très appropriée. Je répondais comme s'il testait un à la fois.
Michael R. Chernick
@Michael: Je l'ai interprété de cette façon lorsque j'ai lu la question d'origine également, mais j'ai décidé d'écrire ma réponse après avoir lu le commentaire. Sinon, je ne pense pas qu'il y aurait beaucoup à ajouter à votre réponse (+1) (à part les petites remarques que j'ai faites dans un commentaire là-bas).
MånsT
5

Pour la distribution exponentielle, vous pouvez utiliser un test appelé test de Moran ou Bartlett. La statistique de test implique la moyenne de l'échantillon ainsi que la moyenne de l'échantillon du Dans l'hypothèse nulle, nous avons environ et un test bilatéral fonctionne. Ce test est conçu contre des alternatives gamma.¯ Y ¯ log Y Y i B n = b n × { log ˉ Y - ¯ log Y }BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Voir KC Kapur et LR Lamberson Fiabilité dans la conception technique . Wiley 1977.

Yves
la source
2
Je suis tombé sur des ressources plus récentes et étendues sur les tests d'exponentialité. 1) Un article: A Henze, N. et Meintanis, SG (2005): «Tests d'exponentialité récents et classiques: une revue partielle avec comparaisons». Metrika, vol. 61, p. 29–45. 2) Un package CRAN R nommé «exptest» implémentant les tests de l'article mentionné.
Yves
La distribution de B_n n'est pas très claire. Est-ce Chi carré avec n-1 df, ou Chi carré avec n-1 df multiplié par n-1?
Dovini Jayasinghe
Fonctionne comme écrit. Vous pouvez le vérifier en utilisant quelques lignes de code R.
Yves
Merci. Donc ça devrait être la multiplication comme je pouvais le voir. En ce sens, les degrés de liberté devraient être n-1?
Dovini Jayasinghe
Désolé, j'ai raté le point de votre question sur la notation. La statistique suit donc approximativement la distribution du chi carré avec degré de liberté. n - 1Bnn1
Yves
4

Pour la normalité, Anderson-Darling et Shapiro-Wilk sont considérés comme les meilleurs. Pour le test exponentiel de Lillerfors est spécialement conçu pour cela.

Michael R. Chernick
la source
5
cette réponse pourrait être améliorée avec un peu de détails sur la raison pour laquelle chaque test est considéré comme bon / meilleur que les autres.
naught101
Ces tests sont meilleurs dans le sens où ils sont les plus puissants aux écarts de la normale (Anderson-Darling) et exponentielle (Lillefors). Je ne pense pas qu'il soit facile, sur la base de la forme du test, de fournir une explication intuitive.
Michael R. Chernick
3
@Michael: Le test de normalité d'Anderson-Darling (comme le Shapiro-Wilk dito) a un pouvoir respectable contre un large éventail d'alternatives, mais ce n'est certainement pas le plus puissant (ni en général ni en moyenne). Le choix du test doit dépendre de l'alternative à portée de main. Je n'ai jamais entendu parler du test de Lillerfors - vouliez-vous dire le test de Lilliefors (qui est en fait un test de normalité et non un test d'exponentialité)?
MånsT
Bien sûr, je faisais référence au test de Lillefors pour l'exponentialité car c'était celui que je proposais pour les hypothèses de distribution exponentielle. J'ai énuméré Shapiro-Wilk et Anderson-Darling car, au meilleur de ma connaissance, ils sont parmi les plus puissants parmi les tests de normalité. Quels sont les tests les plus puissants auxquels vous faites référence?
Michael R. Chernick
1
Cela dépend du type d'alternative dont vous disposez. Contre des alternatives de biais, par exemple, le biais d'échantillon est souvent plus puissant que SW et AD. Ces derniers sont des tests omnibus qui sont assez bons en moyenne, mais si vous savez de quel type de non-normalité vous vous inquiétez, il est préférable d'utiliser un test dirigé (tel que le test d'échantillon d'asymétrie, qui vise les alternatives d'asymétrie) .
MånsT
4

Avez-vous envisagé des méthodes graphiques pour voir comment les données se comportent?

Les techniques de graphe de probabilité impliquent généralement de classer les données, d'appliquer le CDF inverse puis de tracer les résultats sur le plan cartésien. Cela vous permet de voir si plusieurs valeurs s'écartent de la distribution hypothétique et peuvent éventuellement expliquer la raison de l'écart.

Schenectady
la source