Pourquoi les régresseurs non pertinents deviennent-ils statistiquement significatifs dans de grands échantillons?

8

J'essaie de mieux comprendre la signification statistique, la taille des effets, etc.

J'ai l'impression (peut-être que c'est faux) que même les régresseurs non pertinents deviennent souvent statistiquement significatifs dans les grands échantillons . Par non pertinent, je veux dire qu'il n'y a aucune explication de la raison pour laquelle le régresseur devrait être lié à la variable dépendante. Ainsi, la non-pertinence dans ce post est un concept purement sujet et non statistique.

Je sais qu'un régresseur sera statistiquement significatif étant donné un échantillon suffisamment grand à moins que l'effet de population ne soit exactement nul (comme discuté ici ). Par conséquent, un régresseur non pertinent qui semble statistiquement significatif dans un grand échantillon a une taille d'effet non nulle dans la population.

Des questions:

Comment se fait-il qu'un régresseur non pertinent se révèle statistiquement significatif?
Dois-je chercher une explication du sujet (c.-à-d. Essayer de nier la non-pertinence) ou est-ce un phénomène statistique?

Ceci est la suite d' un article où j'essayais de clarifier comment guérir cet effet. En attendant, je demande ici pourquoi cela se produit en premier lieu.

regression statistical-significance effect-size large-data Richard Hardy
la source

Cela semble toujours dupliquer votre message précédent, qui lui-même avait déjà été répondu. Une réponse au double de cet article indique que "les valeurs p sont arbitraires, en ce sens que vous pouvez les rendre aussi petites que vous le souhaitez en rassemblant suffisamment de données." Cela ne concerne-t-il pas à la fois # 1 et # 2?

whuber

1

Merci @whuber. J'essayais de faire comprendre que ce message répond à une nouvelle question différente. Je comprends déjà ce qui se passe s'il y a vraiment un effet sur la population (le sujet de l'autre post et un plus ancien qu'il reproduit). Mes questions ici sont (i) est la raison de la signification statistique fréquente de régresseurs apparemment non pertinents toujours les mêmes, c'est-à-dire qu'il y a en fait un effet de population; (ii) sinon, quelles sont les autres raisons; (iii) si oui, les effets sur la population sont-ils le plus souvent dus au sujet ou au hasard. J'espère que cela le rend plus clair.

Richard Hardy

9

Des questions:

Comment se fait-il qu'un régresseur non pertinent se révèle statistiquement significatif?

Je pense qu'il est utile de réfléchir à ce qui se passe lorsque la taille de votre échantillon se rapproche de la population elle-même. Les tests de signification sont destinés à vous donner une idée de l'absence ou non d'un effet dans la population. C'est la raison pour laquelle lorsque vous travaillez avec des données de recensement (qui enquêtent sur la population), les tests de signification n'ont pas de sens (car, à quoi essayez-vous de généraliser?).

Dans cet esprit, que signifie «un effet sur la population»? Cela signifie simplement toute relation entre les variables de la population, quelle que soit sa taille (qu'il s'agisse d'une différence de 1 point ou de 1 personne), même si cette relation est due au hasard et au hasard dans l'univers.

Ainsi, à mesure que votre échantillon approche de la taille de la population, les tests de signification deviennent de moins en moins significatifs car toute différence sera "statistiquement significative". Ce qui vous intéresserait alors le plus, c'est la taille de l'effet - qui est analogue à «pratiquement significatif».

Dois-je chercher une explication du sujet (c.-à-d. Essayer de nier la non-pertinence) ou est-ce un phénomène statistique?

C'est un phénomène - vous devriez regarder les tailles d'effet.

QxV
la source

Vous mentionnez quelque chose que je cherchais intuitivement mais que je n'avais pas formulé avec succès. L'effet dans la population peut être toute relation entre les variables de la population, quelle que soit sa taille (qu'il s'agisse d'une différence de 1 point ou de 1 personne), même si cette relation est due au hasard et au hasard dans l'univers. Si ces effets sont dus au hasard, je n'ai pas besoin de chercher d'explication sur le sujet. Merci!

Richard Hardy

Soit dit en passant, votre argument est intuitif dans les cas où l'on teste par exemple l'égalité des moyens ou si l'effet du traitement est exactement nul. Mais qu'en est-il de la signification des régresseurs dans une régression multiple? Pourriez-vous peut-être énoncer votre point dans un contexte de régression afin que je puisse plus facilement suivre?

Richard Hardy

1

Hmm, je pense que l'analogie est directement pertinente. Par exemple, si vous imaginez que la consommation de chocolat n'a aucun effet sur l'espérance de vie, après ajustement pour des variables de contrôle telles que la quantité d'exercice, etc., mais qu'une personne sur une population de 6 milliards de personnes se trouve être une valeur aberrante, il y aura une population " effet "de la consommation de chocolat sur l'espérance de vie, mais la taille de l'effet sera minuscule. J'espère que cet exemple a été utile, mais j'ai eu du mal à penser en quoi un coefficient de régression serait différent de tout autre paramètre.

QxV

3

Je suis un peu confus quant à la raison pour laquelle les tests de signification devraient être dénués de sens si vous échantillonnez toute la "population" (si par population vous voulez dire la population réelle). Si je veux tester quelque chose sur les gens et que mon échantillon est composé de 7 milliards de personnes, alors je peux sûrement encore exécuter un test de signification et il pourrait rejeter ou ne pas rejeter l'hypothèse nulle. Je ne vois pas pourquoi cela devrait être conceptuellement dénué de sens. La "généralisation" que vous avez mentionnée peut faire référence, par exemple, aux générations futures ou quelque chose du genre. (CC @Richard.)

amibe

1

@amoeba: Je pense que les tests de signification statistique n'ont de sens que pour un échantillon, pas pour une population. Une fois que nous avons observé l'ensemble de la population, toutes nos connaissances sont parfaites: il n'y a pas d'incertitude d'estimation des paramètres ou similaire. Nous pouvons mesurer exactement n'importe quelle relation. (Cela ne signifie pas que nous aurons une explication parfaite du sujet pour toutes les relations, mais c'est en plus le point.) Pendant ce temps, si vous généralisez aux générations futures, cela ne fait implicitement de la population actuelle qu'un échantillon du {courant + futur} population. Ensuite, les tests de signification statistique sont de retour dans le jeu.

Richard Hardy

2

Même si la taille de votre échantillon n'approche pas de votre population, de minuscules effets deviennent significatifs dans les grands échantillons. Ceci est une conséquence de ce que signifie la signification statistique:

Si, dans la population à partir de laquelle cet échantillon a été prélevé, l'hypothèse nulle était vraie, est-il (XX%) probable que nous obtiendrions une statistique de test au moins aussi grande dans un échantillon de la taille que nous avons?

Si votre question concerne toutes les personnes sur Terre, alors si vous prenez un échantillon de 1 000 000 (pas près de 7 000 000 000), même de très petits effets seront importants, car il est très peu probable de trouver de telles statistiques de test dans de grands échantillons lorsque la valeur nulle est vraie. .

Il y a beaucoup de problèmes avec les tests de signification, discutés dans de nombreux endroits. C'est l'un d'eux. Le «remède» consiste à examiner la taille des effets et les intervalles de confiance.

Peter Flom
la source

1

Merci! Je pense que je comprends le mécanisme de transformation de ces effets minuscules en effets statistiquement significatifs étant donné un échantillon suffisamment grand. La question centrale est, pourquoi ces effets minuscules sont-ils présents dans la population pour commencer? Se produisent-ils principalement en raison du "caractère aléatoire de l'univers"? Ou représentent-ils des relations réelles (non dues au hasard) que nous avons tendance à négliger lorsque nous y pensons du point de vue du sujet?

Richard Hardy

4

Je dirais ce dernier.

Ben Bolker

@BenBolker Pourriez-vous s'il vous plaît fournir un raisonnement? Cela pourrait être très utile.

Richard Hardy

3

Je suis d'accord avec Ben. Presque deux variables quelconques vont être liées dans une certaine mesure; et ceux que nous collons dans les modèles sont beaucoup plus susceptibles d'être liés. Nous ne jetons pas (et ne devrions pas) simplement jeter des ordures dans des modèles.

Peter Flom

2

J'ai emprunté un aperçu de @QxV pour fournir une explication de la présence d'un effet de population, même si la connaissance du sujet ne suggère pas un tel effet.

Supposons qu'il existe un processus de génération de population (PGP) qui génère des populations avec des caractéristiques $y$ et $x$ . La formule PGP est telle que $y$ et $x$ sont indépendants jusqu'à un terme d'erreur aléatoire. Précisément à cause de ce terme d'erreur aléatoire, toute réalisation finie $y_{realized}$ et $x_{realized}$ a une probabilité nulle de décorrélation exacte, c.-à-d. $P(y_{realized} \perp x_{realized})=0$ . Si c'est le cas, avec une probabilité un, il y a un effet démographique. C'est ainsi que les effets se produisent dans la population.

Une fois qu'un effet de population existe, il s'agit de la taille de l'échantillon lorsque nous le détecterons dans l'échantillon et lorsqu'il deviendra statistiquement significatif.

Richard Hardy
la source

2

En plus des excellentes réponses déjà publiées, je vais essayer d'un autre point de vue. Tous les modèles sont des approximations, dans un certain sens ... Regardez un modèle de régression, et une variable non pertinente est significative. Qu'est-ce qui peut l'expliquer?

Peut-être qu'il n'est tout simplement pas hors de propos que le consensus scientifique actuel sur cette question soit tout simplement faux . Mis à part cela:
Il peut s'agir d'un substitut ou d'un proxy pour une variable omise qui est pertinente et qui est corrélée avec la variable non pertinente.
Certaines variables pertinentes, incluses linéairement dans le modèle, pourraient agir de manière non linéaire, et votre variable non pertinente pourrait être un remplaçant pour cette partie de la variable pertinente.
Une certaine interaction entre deux variables pertinentes est importante, mais n'est pas incluse dans le modèle. Votre variable non pertinente pourrait être un remplaçant pour cette interaction omise.
La variable non pertinente pourrait simplement être très fortement corrélée avec une variable importante, conduisant à des coefficients négativement corrélés. Cela pourrait être important, surtout s'il y a des erreurs de mesure dans ces variables.
Il pourrait y avoir quelques observations avec un effet de levier très élevé, conduisant à des estimations étranges.

Sûrement d'autres ... un point important est qu'un modèle de régression linéaire pourrait être une très bonne approximation avec un petit échantillon, seuls les effets importants seront significatifs. Mais un échantillon plus grand entraînera une variance plus faible, mais il ne peut pas réduire le biais dû aux approximations . Ainsi, avec des échantillons plus importants, ces insuffisances du modèle deviennent manifestes et finiront par dominer la variance.

kjetil b halvorsen
la source

-1

Non. Les régresseurs non pertinents ne deviennent pas statistiquement significatifs à mesure que la taille de l'échantillon augmente. Essayez le code suivant dans R.

y <- rnorm (10000000)

x <- rnorm (10000000)

résumé (lm (y ~ x))

David
la source

1

Avez-vous répété ce code, disons, 1000 fois (ou plus) et vu ce qui va se passer?

kjetil b halvorsen

Vous aurez un taux de faux positifs de 5%, comme prévu. Mais la même chose est obtenue quelle que soit la taille de l'échantillon

David

Voir ma réponse pour un autre point de vue

kjetil b halvorsen

Je comprends votre message, et pour les relations "genre de linéaire" c'est vrai (comme c'est pour les relations "réellement linéaires") Cependant, si vous changez 10000000 pour 10 dans mon code, vous n'êtes pas moins susceptible d'obtenir un faux positif au test F

David

Merci pour votre réponse! Bien que correct en lui-même, je pense qu'il manque le point de la question. La question est motivée par l'observation selon laquelle nous trouvons souvent des relations statistiquement significatives qui n'ont pas d'explication sur le sujet.

Richard Hardy

Pourquoi les régresseurs non pertinents deviennent-ils statistiquement significatifs dans de grands échantillons?

Réponses: