J'essaie de mieux comprendre la signification statistique, la taille des effets, etc.
J'ai l'impression (peut-être que c'est faux) que même les régresseurs non pertinents deviennent souvent statistiquement significatifs dans les grands échantillons . Par non pertinent, je veux dire qu'il n'y a aucune explication de la raison pour laquelle le régresseur devrait être lié à la variable dépendante. Ainsi, la non-pertinence dans ce post est un concept purement sujet et non statistique.
Je sais qu'un régresseur sera statistiquement significatif étant donné un échantillon suffisamment grand à moins que l'effet de population ne soit exactement nul (comme discuté ici ). Par conséquent, un régresseur non pertinent qui semble statistiquement significatif dans un grand échantillon a une taille d'effet non nulle dans la population.
Des questions:
- Comment se fait-il qu'un régresseur non pertinent se révèle statistiquement significatif?
- Dois-je chercher une explication du sujet (c.-à-d. Essayer de nier la non-pertinence) ou est-ce un phénomène statistique?
Ceci est la suite d' un article où j'essayais de clarifier comment guérir cet effet. En attendant, je demande ici pourquoi cela se produit en premier lieu.
la source
Réponses:
Des questions:
Je pense qu'il est utile de réfléchir à ce qui se passe lorsque la taille de votre échantillon se rapproche de la population elle-même. Les tests de signification sont destinés à vous donner une idée de l'absence ou non d'un effet dans la population. C'est la raison pour laquelle lorsque vous travaillez avec des données de recensement (qui enquêtent sur la population), les tests de signification n'ont pas de sens (car, à quoi essayez-vous de généraliser?).
Dans cet esprit, que signifie «un effet sur la population»? Cela signifie simplement toute relation entre les variables de la population, quelle que soit sa taille (qu'il s'agisse d'une différence de 1 point ou de 1 personne), même si cette relation est due au hasard et au hasard dans l'univers.
Ainsi, à mesure que votre échantillon approche de la taille de la population, les tests de signification deviennent de moins en moins significatifs car toute différence sera "statistiquement significative". Ce qui vous intéresserait alors le plus, c'est la taille de l'effet - qui est analogue à «pratiquement significatif».
C'est un phénomène - vous devriez regarder les tailles d'effet.
la source
Même si la taille de votre échantillon n'approche pas de votre population, de minuscules effets deviennent significatifs dans les grands échantillons. Ceci est une conséquence de ce que signifie la signification statistique:
Si votre question concerne toutes les personnes sur Terre, alors si vous prenez un échantillon de 1 000 000 (pas près de 7 000 000 000), même de très petits effets seront importants, car il est très peu probable de trouver de telles statistiques de test dans de grands échantillons lorsque la valeur nulle est vraie. .
Il y a beaucoup de problèmes avec les tests de signification, discutés dans de nombreux endroits. C'est l'un d'eux. Le «remède» consiste à examiner la taille des effets et les intervalles de confiance.
la source
J'ai emprunté un aperçu de @QxV pour fournir une explication de la présence d'un effet de population, même si la connaissance du sujet ne suggère pas un tel effet.
Supposons qu'il existe un processus de génération de population (PGP) qui génère des populations avec des caractéristiquesy et x . La formule PGP est telle quey et x sont indépendants jusqu'à un terme d'erreur aléatoire. Précisément à cause de ce terme d'erreur aléatoire, toute réalisation finieyrealized et xrealized a une probabilité nulle de décorrélation exacte, c.-à-d. P(yrealized⊥xrealized)=0 . Si c'est le cas, avec une probabilité un, il y a un effet démographique. C'est ainsi que les effets se produisent dans la population.
Une fois qu'un effet de population existe, il s'agit de la taille de l'échantillon lorsque nous le détecterons dans l'échantillon et lorsqu'il deviendra statistiquement significatif.
la source
En plus des excellentes réponses déjà publiées, je vais essayer d'un autre point de vue. Tous les modèles sont des approximations, dans un certain sens ... Regardez un modèle de régression, et une variable non pertinente est significative. Qu'est-ce qui peut l'expliquer?
Peut-être qu'il n'est tout simplement pas hors de propos que le consensus scientifique actuel sur cette question soit tout simplement faux . Mis à part cela:
Il peut s'agir d'un substitut ou d'un proxy pour une variable omise qui est pertinente et qui est corrélée avec la variable non pertinente.
Certaines variables pertinentes, incluses linéairement dans le modèle, pourraient agir de manière non linéaire, et votre variable non pertinente pourrait être un remplaçant pour cette partie de la variable pertinente.
Une certaine interaction entre deux variables pertinentes est importante, mais n'est pas incluse dans le modèle. Votre variable non pertinente pourrait être un remplaçant pour cette interaction omise.
La variable non pertinente pourrait simplement être très fortement corrélée avec une variable importante, conduisant à des coefficients négativement corrélés. Cela pourrait être important, surtout s'il y a des erreurs de mesure dans ces variables.
Il pourrait y avoir quelques observations avec un effet de levier très élevé, conduisant à des estimations étranges.
Sûrement d'autres ... un point important est qu'un modèle de régression linéaire pourrait être une très bonne approximation avec un petit échantillon, seuls les effets importants seront significatifs. Mais un échantillon plus grand entraînera une variance plus faible, mais il ne peut pas réduire le biais dû aux approximations . Ainsi, avec des échantillons plus importants, ces insuffisances du modèle deviennent manifestes et finiront par dominer la variance.
la source
Non. Les régresseurs non pertinents ne deviennent pas statistiquement significatifs à mesure que la taille de l'échantillon augmente. Essayez le code suivant dans R.
y <- rnorm (10000000)
x <- rnorm (10000000)
résumé (lm (y ~ x))
la source