Les problèmes statistiques impliquant des intervalles de confiance pour une moyenne de population peuvent être formulés en fonction de la fonction de pondération suivante :
Par exemple, l' intervalle de confiance classique de niveau standard pour la moyenne d'une super-population infinie peut s'écrire:
Il est trivial de fixer les limites et utilisant la fonction quantile de la distribution T. Dans le contexte des intervalles de confiance, cela nous indique que l'intervalle se réduit à un seul point lorsque nous diminuons le niveau de confiance, et augmente sur toute la ligne réelle lorsque nous augmentons le niveau de confiance. Une autre propriété intuitive qui devrait tenir est que l'intervalle se réduit à un seul point à mesure que nous obtenons de plus en plus de données, ce qui signifie que:
Question: Veuillez fournir une preuve pour cette dernière propriété de la fonction de pondération.
Plus d'informations: Pour tout lecteur mathématique qui ne connaît pas les points critiques de la distribution T , la valeur est une fonction de définie par l'équation implicite:
la source
Réponses:
Preuve de l'inégalité de Chebyshev
Voici une preuve utilisant l'inégalité de Chebyshev .Pr(|T|≥kσ)≤1k2
Si nous remplissons et définissons alors nous avons une limiteσtν=νν−2 1/k2=α=Pr(|T|≥tν,α/2)
ainsi sera délimité ci-dessus partν,α/2
en ajoutant la borne inférieure évidente et en divisant parν+1−−−−√
ce qui serre à zéro pourtn−1,α/2/n−−√ n→∞
la source
Je suis sûr qu'il existe un moyen plus facile de le faire, mais le résultat est immédiat de ce qui suit:
Ensuite, c'est une application bien connue du théorème de Slutsky que letn−1 converge dans la distribution vers une distribution normale standard. Le résultat précédent implique queFn(tn−1,α)−F(tn−1,α)→0 , c'est à dire, F(tn−1,α)→α . En appliquant la fonction quantile normale des deux côtés, nous obtenonstn−1,α→zα .
Par conséquenttn−1,α→zα impliquant tn−1,αg(n)→0 pour toute g(n)→∞ (en particulier, g(n)=n−−√ ).
la source
Preuve géométrique
Vue géométrique
Considérons l'échantillon observé comme un point dans l'espace euclidien à n dimensions et l'estimation de la moyenne comme la projection d'une observationx1,x2,...,xn sur la ligne de modèle x1=x2=...=xn=x¯ .
Le t-score peut être exprimé comme le rapport de deux distances dans cet espace
Ceci est lié à la tangente de l'angle entre l'observation et la ligne sur laquelle elle est projetée.
Distribution d'équivalence t et distribution d'angle
Dans cette vue géométrique, la probabilité que le score t soit supérieur à une certaine valeur équivaut à la probabilité que l' angle soit inférieur à une certaine valeur:
Ou
On pourrait dire que le t-score est lié à l'angle d'observation avec la droite du modèle théorique. Pour les points en dehors de l'intervalle de confiance (alorsμ est plus éloigné x¯ et l'angle sera plus petit) l'angle sera en dessous d'une certaine limite θν,α . Cette limite changera avec plus d'observations. Si la limite de cet angleθν,α va à 90 degrés pour les grands n (la forme du cône devenant plus plate, c'est-à-dire moins pointue et longue), cela signifie que la taille de l'intervalle de confiance devient plus petite et s'approche de zéro.
Distribution angulaire comme aire relative du chapeau d'une sphère n
En raison de la symétrie de la distribution de probabilité conjointe des variables distribuées normales indépendantes, chaque direction est également probable et la probabilité que l'angle soit dans une certaine région est égale à l'aire relative du cap d'une sphère n.
L'aire relative de ce n-cap est trouvée en intégrant l'aire d'un n-tronc :
oùIx(⋅,⋅) est la fonction bêta incomplète régularisée supérieure.
Limite d'angle
Siθn,α passe à 90 degrés pour n→∞ puis tn−1,α/2/n−−√ va à zéro.
Ou une déclaration inverse: pour tout angle inférieur à 90 degrés, la zone relative de cet angle sur une n-sphère, diminue à zéro lorsquen va à l'infini.
Intuitivement, cela signifie que toute l'aire d'une sphère n se concentre sur l'équateur en tant que dimensionn augmente à l'infini.
Quantitativement, nous pouvons le montrer en utilisant l'expression
and consider the difference betweenL(n+2) and L(n) .
At some point the decrease in the denominator
la source
We have
which implies that the second term in the boxed brackets can be at most12 since the maximum α can be is 1 . Note that φ(x) is the pdf of normal distribution. This approximation is also based on this.
So
la source