Quelle est la signification de l'erreur-type d'un coefficient dans une régression lorsque l'ensemble de la population est inclus?
J'ai été tellement perplexe par cette question. Parce qu'il me semble, les erreurs types n'ont aucun sens lorsque toute la population est incluse - il n'y a pas besoin d'inférence statistique puisque vous avez déjà toute la population.
Mais il est si largement utilisé même par de nombreux articles publiés dans les meilleures revues. Par exemple, si j'examine la relation entre le taux de croissance du PIB d'un pays et sa densité de population, je lance la régression:
avec les 195 pays du monde. Dans ce cas, tous les pays (la population) sont inclus. Mais toute la littérature parle encore de la signification statistique des coefficients.
Quelqu'un pourrait-il expliquer qu'il s'agit d'une mauvaise utilisation de l'inférence statistique lors de la régression sur l'ensemble de la population?
la source
Réponses:
J'avais initialement signalé cette question aux modérateurs pour examiner s'il serait préférable de migrer vers le site de statistiques SE Cross Validated. Mais puisque le PO a introduit un exemple d'économétrie très spécifique, je pense que le concept (très profond) de "population / échantillon" peut être utilement discuté aux fins de cet exemple.
Un premier problème est celui abordé dans la réponse @AdamBailey: si l'on considère "tous les pays du monde" pour une année ou des années données, et qu'il nomme les données "population", l'année suivante devrait appartenir à une population différente. S'il appartient à une population différente, comment utiliser les résultats d'une population pour faire des déductions pour une autre population? Donc, en effet, ici notre «population» est bidimensionnelle , pays et période de temps - et en ce sens, avec l'horizon temporel ouvert, nous n'avons qu'un échantillon entre nos mains.
Nos données ne sont donc qu'une des réalisations combinées possibles de ces variables aléatoires. Ces réalisations sont le fruit non seulement de relations déterministes / techniques / causalité (reflétées dans les coefficients), mais aussi sous l'effet de facteurs intrinsèquement aléatoires. En ce sens, les données ne sont pas une image "pure / typique" de la "population" - elles contiennent du bruit, des perturbations non structurelles, des chocs ponctuels, etc.
Ensuite, cette incertitude se répercutera sur l'estimation des coefficients que nous essayons d'estimer, car nous supposons que ces coefficients décrivent la causalité ou le co-mouvement avant les éléments aléatoires affectant la valeur finale de la variable dépendante.
En raison des deux aspects ci-dessus, parler d '"erreur type des estimations" est tout à fait valable, dans ce cas également, puis appliquez les tests statistiques comme d'habitude.
la source
Il est important de considérer quelle est exactement la population sur laquelle une inférence est tirée. Il est facile d'oublier l'aspect temporel dans ce contexte.
Supposons par exemple que l'objectif soit de prévoir le PIB des deux prochaines années pour chaque pays du monde. Ensuite, la population d'intérêt est un ensemble de paires de la forme "pays, année". Il ne s'agit pas simplement de "tous les pays", et même si un modèle de prévision a été estimé par régression sur les données de l'année en cours et des années passées pour chaque pays, cela ne signifie pas que toute la population d'intérêt a été incluse.
Si l'on commence vraiment à partir d'un ensemble de données complet pour l'ensemble de la population d'intérêt, alors tout ce que l'on peut faire est de calculer des statistiques sommaires. Cela pourrait inclure des écarts-types, mais il serait inapproprié d'appeler ces erreurs-types, car ce terme se rapporte à une distribution d'échantillonnage alors que le seul "échantillon" dans ce cas est l'ensemble de la population.
la source