Quels sont les degrés de liberté d'une distribution?

10

Je traite en ce moment avec beaucoup de distributions, par exemple, , , .Ftχ2

Je me demandais pourquoi ces degrés de liberté signifient-ils pour des distributions telles que la distribution ?F(m,n)

Le Max
la source
3
Veuillez consulter stats.stackexchange.com/questions/16921/… . La réponse qui répond le plus directement à votre question est stats.stackexchange.com/a/16931 ; les autres réponses apportent diverses améliorations et des moyens supplémentaires de comprendre les degrés de liberté. Ailleurs sur le Web, le meilleur compte que je peux trouver de cette famille de distributions est à rip94550.wordpress.com/2012/07/30/… . De meilleures explications apparaissent dans les textes; mon préféré est JC Kiefer, Intro. à Stat. Inférence , pp 265 et suiv.
whuber
@maximus whuber donne une réponse très détaillée dans son deuxième lien. C'est très intéressant car il parle de toutes les idées fausses et les mauvaises définitions données dans l'article de wikipedia qui est cité dans cet article.
Michael R. Chernick

Réponses:

12

Voici une réponse moins technique, peut-être plus accessible aux personnes ayant une préparation mathématique modeste.

Le terme degrés de liberté (df) est utilisé en relation avec diverses statistiques de test, mais sa signification varie d'un test statistique à l'autre. Certains tests n'ont pas de degrés de liberté associés à la statistique de test (par exemple, le test exact de Fisher ou le test z). Lorsque nous effectuons un test az, la valeur z que nous calculons sur la base de nos données peut être interprétée sur la base d'une seule table de valeurs z critiques, quelle que soit la taille de notre ou nos échantillons. Une autre façon de dire cela est qu'il existe une distribution z. Ce n'est pas le cas pour certains autres tests (par exemple, F ou t ou χ2).

La raison pour laquelle de nombreuses statistiques de test doivent être interprétées à la lumière de df est que la distribution (théorique) des valeurs de la statistique de test, en supposant que l'hypothèse nulle est vraie, dépend de la taille de l'échantillon ou du nombre de groupes, ou des deux, ou d'un autre fait sur les données recueillies. Lors d'un test t, la distribution des valeurs t dépend de la taille de l'échantillon, donc lorsque nous évaluons la valeur t que nous calculons à partir des données observées, nous devons la comparer aux valeurs t attendues sur la base de la même taille d'échantillon que nos données. De même, la distribution des valeurs de F dans une analyse de variance (en supposant que l'hypothèse nulle est vraie) dépend à la fois de la taille de l'échantillon et du nombre de groupes. Donc, pour interpréter la valeur F que nous calculons à partir de nos données, nous devons utiliser des tableaux de valeurs F qui sont basés sur la même taille d'échantillon et le même nombre de groupes que nous avons dans nos données. Autrement dit, les tests F (c.-à-d. Les ANOVA) et les tests t et les tests χ2 nécessitent chacun une famille de courbes pour nous aider à interpréter la valeur t ou F ou χ2 que nous calculons en fonction de nos données. Nous choisissons parmi ces familles de courbes basées sur des valeurs (c'est-à-dire df) afin que les probabilités que nous lisons dans les tableaux soient appropriées pour nos données. (Bien sûr, la plupart des programmes informatiques le font pour nous.)

Joel W.
la source
3
+1 Un travail vraiment merveilleux de voir le cœur pratique de la question et de l'expliquer clairement.
whuber
0

La distribution F est le rapport de deux distributions khi deux centrales. Le m est le degré de liberté associé à la variable aléatoire du chi carré qui représente le numérateur et le n est le degré de liberté du chi carré pour le dénominateur. Pour compléter la réponse à votre question, je dois expliquer les degrés de liberté chi carré. Une distribution khi carré à n degrés de liberté peut être représentée comme la somme des carrés de n variables aléatoires indépendantes N (0,1). Ainsi, les degrés de liberté peuvent être considérés comme le nombre de variables aléatoires normales qui apparaissent dans la somme.

Maintenant, cela changera si ces normales incluent des paramètres estimés. Supposons par exemple que nous ayons n variables indépendantes N (m, 1) X i = 1,2, ..., n. Soit alors X la moyenne de l'échantillon = ∑X / n. ibi

Calculez maintenant S = ∑ (X -X ) . Ce S aura une distribution chi carré mais avec n-1 degrés de liberté. Dans ce cas, nous additionnons toujours n, au carré N (0,1) variables aléatoires. Mais la différence ici est qu'ils ne sont pas indépendants car chacun est formé en utilisant le même X . Ainsi, pour le chi carré, on dit souvent que les degrés de liberté sont égaux au nombre de termes de la somme moins le nombre de paramètres estimés.2ib22b

Dans le cas de la distribution t, nous avons un N (0, σ ) divisé par V où V est l'estimation de l'échantillon de σ. V est proportionnel à un chi carré avec n-1 degrés de liberté où n est la taille de l'échantillon. Les degrés de liberté pour le t sont les degrés de liberté pour la variable aléatoire khi carré impliquée dans le calcul de V.2

Michael R. Chernick
la source