Je trouve que de simples exercices d'analyse de données peuvent souvent aider à illustrer et à clarifier des concepts statistiques. Quels exercices d'analyse de données utilisez-vous pour enseigner des concepts statistiques?
Comme je dois expliquer les méthodes de sélection des variables assez souvent, non pas dans un contexte d'enseignement, mais pour les non-statisticiens qui demandent de l'aide pour leurs recherches, j'aime cet exemple extrêmement simple qui illustre pourquoi la sélection d'une seule variable n'est pas nécessairement une bonne idée.
Si vous avez cet ensemble de données:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
Il ne faut pas longtemps pour se rendre compte que X1 et X2 individuellement sont complètement non informatifs pour y (quand ils sont identiques, y est 'certain' d'être 1 - j'ignore les problèmes de taille d'échantillon ici, supposez simplement ces quatre observations pour être l'univers entier). Cependant, la combinaison des deux variables est complètement informative. En tant que tel, il est plus facile pour les gens de comprendre pourquoi ce n'est pas une bonne idée (par exemple) de ne vérifier que la valeur de p pour les modèles avec chaque variable individuelle comme régresseur.
D'après mon expérience, cela fait vraiment passer le message.
Coefficients de régression multiples et erreur de signe attendue
L'une de mes illustrations préférées d'un concept statistique à travers un exercice d'analyse de données est la déconstruction d'une régression multiple en plusieurs régressions bivariées.
Objectifs
Concept
Les coefficients de régression dans un modèle de régression multiple représentent la relation entre a) la partie d'une variable prédictive donnée (x1) qui n'est pas liée à toutes les autres variables prédictives (x2 ... xN) du modèle; et 2) la partie de la variable de réponse (Y) qui n'est pas liée à toutes les autres variables prédictives (x2 ... xN) du modèle. Lorsqu'il existe une corrélation entre les prédicteurs, les signes associés aux coefficients des prédicteurs représentent les relations entre ces résidus.
Exercice
Le coefficient pour l'étape 4 pour r2 sera le coefficient de x1 pour le modèle de régression multiple avec x1 et x2. Vous pouvez faire de même pour x2 en séparant x1 pour y et x2.
Voici un code R pour cet exercice.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
Voici les extrants et résultats pertinents.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***