Grand échantillon asymptotique / théorie - Pourquoi s'en soucier?

13

J'espère que cette question ne sera pas marquée comme «trop générale» et j'espère qu'une discussion commencera qui bénéficiera à tous.

En statistiques, nous passons beaucoup de temps à apprendre de grandes théories d'échantillonnage. Nous souhaitons vivement évaluer les propriétés asymptotiques de nos estimateurs, notamment s’ils sont asymptotiquement impartiaux, asymptotiquement efficaces, leur distribution asymptotique, etc. Le mot asymptotique est fortement lié à l'hypothèse que .n

En réalité, cependant, nous avons toujours affaire à fini . Mes questions sont:n

1) Qu'entendons-nous par grand échantillon? Comment distinguer les petits et les gros échantillons?

2) Lorsque nous disons , voulons-nous littéralement dire que doit aller à ?nn

ex pour la distribution binomiale, besoin d'environ n = 30 pour converger vers la distribution normale sous CLT. Devrions-nous avoir ou dans ce cas par nous voulons dire 30 ou plus?!X¯n

3) Supposons que nous ayons un échantillon fini et supposons que Nous savons tout sur le comportement asymptotique de nos estimateurs. Et alors? supposons que nos estimateurs sont asymptotiquement sans biais, alors avons-nous une estimation sans biais pour notre paramètre d'intérêt dans notre échantillon fini ou cela signifie que si nous avions n , alors nous en aurions un sans biais?

Comme vous pouvez le voir dans les questions ci-dessus, j'essaie de comprendre la philosophie qui sous-tend les «grands échantillons asymptotiques» et d'apprendre pourquoi nous nous soucions? J'ai besoin d'avoir quelques intuitions pour les théorèmes que j'apprends.

Sam
la source
5
Le comportement sur grand échantillon est une façon de montrer qu'un estimateur donné fonctionne, ou quoi que ce soit d'autre, dans la limite des données infinies. Vous avez raison, cela ne nous dit pas nécessairement à quel point un estimateur est bon dans la pratique, mais c'est une première étape: il est peu probable que vous souhaitiez utiliser un estimateur qui n'est pas asymptotiquement cohérent (ou autre). L'avantage de l'analyse asymptotique est qu'elle est souvent plus facile à comprendre qu'une analyse à échantillon fini.
Dougal
Vous devriez commencer à lire sur les asymptotiques d'ordre supérieur, car vous ne connaissez apparemment que la normalité asymptotique de premier ordre et autres; avec cela, vous ne savez pas encore tout sur le comportement asymptotique. C'est comme dire: "Je sais que le ; pourquoi tout le monde dit que le sinus est périodique ???". sjenX=X
StasK
1
Pour la distribution binomiale, est un mauvais critère. Si vous avez et , la moyenne = 0,03 et sd = 0,173, donc à la valeur nominale, la probabilité que la variable binomiale soit inférieure à zéro via une approximation normale est de 43%, ce qui n'est guère une approximation acceptable pour zéro. . De meilleures règles suggèrent , et elles tiennent compte de ces problèmes d'ordre supérieur. n>30p=0,001n=30nmin(p,1-p)>15
StasK

Réponses:

6

Mieux vaut tard que jamais. Permettez-moi d'abord d'énumérer trois raisons (je pense importantes) pour lesquelles nous nous concentrons sur l'impartialité asymptotique (cohérence) des estimateurs.

a) La cohérence est un critère minimum. Si un estimateur ne fait pas d'estimation correctement même avec beaucoup de données, à quoi sert-il? C'est la justification donnée dans Wooldridge: Introductory Econometrics.

b) Les propriétés des échantillons finis sont beaucoup plus difficiles à prouver (ou plutôt, les déclarations asymptotiques sont plus faciles). Je fais actuellement des recherches moi-même, et chaque fois que vous pouvez compter sur de grands outils d'échantillonnage, les choses deviennent beaucoup plus faciles. Les lois des grands nombres, les théorèmes de convergence des martingales, etc. sont de bons outils pour obtenir des résultats asymptotiques, mais n'aident pas avec les échantillons finis. Je crois que quelque chose dans ce sens est mentionné dans Hayashi (2000): Econometrics.

c) Si les estimateurs sont biaisés pour les petits échantillons, on peut potentiellement corriger ou au moins améliorer avec les corrections dites de petits échantillons. Celles-ci sont souvent compliquées théoriquement (pour prouver qu'elles améliorent l'estimateur sans la correction). De plus, la plupart des gens acceptent de s'appuyer sur de grands échantillons, de sorte que les corrections de petits échantillons ne sont souvent pas implémentées dans les logiciels de statistiques standard, car seules quelques personnes en ont besoin (celles qui ne peuvent pas obtenir plus de données ET se soucient de l'impartialité). Ainsi, il existe certains obstacles à l'utilisation de ces corrections rares.

Sur vos questions. Qu'entendons-nous par «grand échantillon»? Cela dépend fortement du contexte, et pour des outils spécifiques, il peut être répondu par simulation. Autrement dit, vous générez artificiellement des données et voyez comment, par exemple, le taux de rejet se comporte en fonction de la taille de l'échantillon, ou le biais se comporte en fonction de la taille de l'échantillon. Un exemple spécifique se trouve ici , où les auteurs voient combien de clusters il faut pour que les erreurs standard en cluster OLS, les erreurs standard bootstrapées, etc. fonctionnent correctement. Certains théoriciens ont également des déclarations sur le taux de convergence, mais à des fins pratiques, les simulations semblent être plus informatives.

Faut-il vraiment ? Si c'est ce que dit la théorie, oui, mais dans l'application, nous pouvons accepter un biais petit et négligeable, que nous avons avec des échantillons suffisamment grands avec une probabilité élevée. Ce que signifie suffisamment dépend du contexte, voir ci-dessus.n

À la question 3: généralement, la question de l'impartialité (pour toutes les tailles d'échantillon) et de la cohérence (impartialité pour les grands échantillons) est considérée séparément. Un estimateur peut être biaisé, mais cohérent, auquel cas, seules les estimations de grands échantillons ne sont pas biaisées. Mais il existe également des estimateurs non biaisés et cohérents, qui sont théoriquement applicables à toute taille d'échantillon. ( Un estimateur peut également être non biaisé mais incohérent pour des raisons techniques. )

Sans nom
la source