Test de variance finie?

29

Est-il possible de tester la finitude (ou l'existence) de la variance d'une variable aléatoire dans un échantillon? En tant que valeur nulle, soit {la variance existe et est finie} soit {la variance n'existe pas / est infinie} serait acceptable. Sur le plan philosophique (et sur le plan du calcul), cela semble très étrange car il ne devrait pas y avoir de différence entre une population sans variance finie et une population avec une très grande variance (disons> 10400 ), donc je ne pense pas que ce problème puisse être résolu.

Une approche qui m'avait été suggérée était via le théorème de la limite centrale: en supposant que les échantillons sont iid et que la population a une moyenne finie, on pourrait vérifier, d'une manière ou d'une autre, si la moyenne de l'échantillon a la bonne erreur standard avec l'augmentation de la taille de l'échantillon. Je ne suis pas sûr de croire que cette méthode fonctionnerait, cependant. (En particulier, je ne vois pas comment en faire un test approprié.)

shabbychef
la source
1
Pertinent: stats.stackexchange.com/questions/94402/… S'il y a la moindre possibilité que la variance n'existe pas, il vaut mieux utiliser un modèle qui ne suppose pas de variance finie. Ne pensez même pas à le tester.
kjetil b halvorsen

Réponses:

13

Non, cela n'est pas possible, car un échantillon fini de taille n ne peut pas faire une distinction fiable entre, disons, une population normale et une population normale contaminée par une quantité 1/N d'une distribution de Cauchy où N >> n . (Bien sûr, le premier a une variance finie et le second a une variance infinie.) Ainsi, tout test entièrement non paramétrique aura une puissance arbitrairement faible contre de telles alternatives.

whuber
la source
4
c'est un très bon point. cependant, la plupart des tests d'hypothèse n'ont-ils pas une puissance arbitrairement faible par rapport à une alternative? par exemple, un test pour une moyenne nulle aura une puissance très faible lorsqu'il sera donné un échantillon d'une population avec une moyenne ϵ pour 0<|ϵ|petit. Je me demande toujours si un tel test peut être construit de manière saine, encore moins s'il a une faible puissance dans certains cas.
shabbychef
2
aussi, des distributions «polluées» comme celle que vous citez me paraissent toujours en contradiction avec l'idée d'être «identiquement distribuées». Peut-être seriez-vous d'accord. Il semble que dire que les échantillons sont tirés iid d'une certaine distribution sans indiquer que la distribution n'a pas de sens (eh bien, la partie «indépendamment» de iid est significative).
shabbychef
2
(1) Vous avez raison sur la faible puissance, mais le problème ici (il me semble) est qu'il n'y a pas de pas graduel de "fini" à "infini": le problème ne semble pas avoir une échelle naturelle pour nous le dire ce qui constitue un "petit" écart par rapport au nul par rapport à un "grand" écart. (2) La forme distributionnelle est indépendante des considérations d'iid. Je ne veux pas dire que, disons, 1% des données proviendront d'un Cauchy et 99% d'un Normal. Je veux dire que 100% des données proviennent d'une distribution qui est presque normale mais a des queues de Cauchy. En ce sens, les données peuvent être utilisées pour une distribution contaminée.
whuber
2
Quelqu'un a-t-il lu ce document? sciencedirect.com/science/article/pii/S0304407615002596
Christoph Hanck
3
@shabbychef si chaque observation provient du même processus de mélange exact, ils sont distribués de manière identique, chacun comme un tirage de la distribution de mélange correspondante. Si certaines observations proviennent nécessairement d'un processus et d'autres sont nécessairement d'un processus différent (les observations 1 à 990 sont normales et les observations 991 à 1000 sont Cauchy, par exemple), alors elles ne sont pas distribuées de manière identique (même si l'échantillon combiné peut être indiscernable d'un mélange à 99% -1%). Cela se résume essentiellement au modèle du processus que vous utilisez.
Glen_b -Reinstate Monica
16

Vous ne pouvez pas être certain sans connaître la distribution. Mais il y a certaines choses que vous pouvez faire, comme regarder ce qu'on pourrait appeler la "variance partielle", c'est-à-dire que si vous avez un échantillon de taille , vous dessinez la variance estimée à partir des n premiers termes, avec n allant de 2 à N .NnnN

Avec une variance de population finie, vous espérez que la variance partielle se stabilisera bientôt proche de la variance de population.

Avec une variance de population infinie, vous voyez des sauts dans la variance partielle suivis de baisses lentes jusqu'à ce que la prochaine très grande valeur apparaisse dans l'échantillon.

Ceci est une illustration avec des variables aléatoires Normal et Cauchy (et une échelle logarithmique) Écart partiel

Cela peut ne pas aider si la forme de votre distribution est telle qu'une taille d'échantillon beaucoup plus grande que celle dont vous disposez est nécessaire pour l'identifier avec une confiance suffisante, c'est-à-dire lorsque de très grandes valeurs sont assez (mais pas extrêmement) rares pour une distribution à variance finie, ou sont extrêmement rares pour une distribution avec une variance infinie. Pour une distribution donnée, il y aura des tailles d'échantillon qui sont plus susceptibles qu'autrement de révéler sa nature; à l'inverse, pour une taille d'échantillon donnée, il existe des distributions plus susceptibles qu'autrement de masquer leur nature pour cette taille d'échantillon.

Henri
la source
4
+1 J'aime ça parce que (a) un graphique révèle généralement bien plus qu'un test et (b) c'est pratique. Je crains un peu qu'elle ait un aspect arbitraire: son apparence dépendra (fortement, peut-être) de l'ordre dans lequel les données sont données. Lorsque la "variance partielle" est due à une ou deux valeurs extrêmes et qu'elles approchent du début, ce graphique peut être trompeur. Je me demande s'il existe une bonne solution à ce problème.
whuber
1
+1 pour un superbe graphique. Solidifie vraiment le concept de "pas de variance" dans la distribution de Cauchy. @whuber: Trier les données dans toutes les permutations possibles, exécuter le test pour chacune et prendre une sorte de moyenne? Pas très efficace en termes de calcul, je vous l'accorde :) mais peut-être pourriez-vous simplement choisir une poignée de permutations aléatoires?
naught101
2
@ naught101 La moyenne de toutes les permutations ne vous dira rien, car vous obtiendrez une ligne parfaitement horizontale. Peut-être que je comprends mal ce que vous voulez dire?
whuber
1
@whuber: Je voulais en fait prendre la moyenne d'une sorte de test de convergence, pas le graphique lui-même. Mais je reconnais que c'est une idée assez vague, et c'est en grande partie parce que je n'ai aucune idée de ce dont je parle :)
naught101
7

Voici une autre réponse. Supposons que vous puissiez paramétrer le problème, quelque chose comme ceci:

H0: Xt(df=3) versus H1: Xt(df=1).

Ensuite, vous pourriez faire un test de rapport de vraisemblance Neyman-Pearson ordinaire de contre H 1 . Notez que H 1 est Cauchy (variance infinie) et H 0 est le t de Student habituel avec 3 degrés de liberté (variance finie) qui a PDF: f ( x | ν ) = Γ ( ν + 1H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

pour . Étant donné les données d'échantillonnage aléatoire simples x 1 , x 2 , , x n , le test du rapport de vraisemblance rejette H 0 lorsque Λ ( x ) = n i = 1 f ( x i | ν = 1 )<x<x1,x2,,xnH0k0est choisi tel que P(Λ(X)>k

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

C'est un peu d'algèbre pour simplifier

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Λ(x)H0Λ(x)α=0.05n=13

H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

12.8842(3/2)13k1.9859

H0H1α

Avertissements: ceci est un exemple de jouet. Je n'ai pas de situation réelle dans laquelle j'étais curieux de savoir si mes données provenaient de Cauchy par opposition au t de Student avec 3 df. Et la question initiale ne disait rien sur les problèmes paramétrés, elle semblait rechercher davantage une approche non paramétrique, qui, je pense, a été bien abordée par les autres. Le but de cette réponse est pour les futurs lecteurs qui tombent sur le titre de la question et recherchent l'approche classique des manuels poussiéreux.

H1:ν1


la source
2
α
1
H1:ν2ν>2
2
α
1
αα=2
6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HUNE:OuijeCuneuchy(ν,τ)

One hypothesis has finite variance, one has infinite variance. Just calculate the odds:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

Where P(H0|I)P(HA|I) is the prior odds (usually 1)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
And
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

Now you normally wouldn't be able to use improper priors here, but because both densities are of the "location-scale" type, if you specify the standard non-informative prior with the same range L1<μ,τ<U1 and L2<σ,τ<U2, then we get for the numerator integral:

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

Where s2=N1i=1N(YiY¯)2 and Y¯=N1i=1NYi. And for the denominator integral:

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

And now taking the ratio we find that the important parts of the normalising constants cancel and we get:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

And all integrals are still proper in the limit so we can get:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

The denominator integral cannot be analytically computed, but the numerator can, and we get for the numerator:

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

Now make change of variables λ=σ2dσ=12λ32dλ and you get a gamma integral:

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

And we get as a final analytic form for the odds for numerical work:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

So this can be thought of as a specific test of finite versus infinite variance. We could also do a T distribution into this framework to get another test (test the hypothesis that the degrees of freedom is greater than 2).

probabilityislogic
la source
1
When you started to integrate, you introduced a term s2. It persists through the final answer. What is it?
whuber
2
@whuber - s is the standard deviation MLE, s2=N1i=1N(YiY¯)2. I thought it was the usual notation for standard deviation, just as Y¯ is usual for average - which I have incorrectly written as x¯, will edit accordingly
probabilityislogic
5

The counterexample is not relevant to the question asked. You want to test the null hypothesis that a sample of i.i.d. random variables is drawn from a distribution having finite variance, at a given significance level. I recommend a good reference text like "Statistical Inference" by Casella to understand the use and the limit of hypothesis testing. Regarding h.t. on finite variance, I don't have a reference handy, but the following paper addresses a similar, but stronger, version of the problem, i.e., if the distribution tails follow a power law.

POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA SIAM Review 51 (2009): 661--703.

gappy
la source
1

Une approche qui m'avait été suggérée était via le théorème de la limite centrale.

C'est une vieille question, mais je veux proposer un moyen d'utiliser le CLT pour tester les grosses queues.

Laisser X={X1,,Xn}être notre échantillon. Si l'échantillon est une réalisation iid à partir d'une distribution de queue légère, le théorème CLT est valable. Il s'ensuit que siOui={Oui1,,Ouin} est un rééchantillonnage bootstrap de X puis la distribution de:

Z=n×meunen(Oui)-meunen(X)s(Oui),

est également proche de la fonction de distribution N (0,1).

Il ne nous reste plus qu'à effectuer un grand nombre de bootstrap et à comparer la fonction de distribution empirique des Z observés avec la edf d'un N (0,1). Une façon naturelle de faire cette comparaison est le test de Kolmogorov – Smirnov .

Les images suivantes illustrent l'idée principale. Dans les deux images, chaque ligne colorée est construite à partir d'une réalisation iid de 1000 observations de la distribution particulière, suivie de 200 rééchantillonnages bootstrap de taille 500 pour l'approximation du Z ecdf. La ligne continue noire est le N (0,1) cdf.

entrez la description de l'image ici entrez la description de l'image ici

Mur1lo
la source
2
Aucune quantité de bootstrapping ne vous mènera nulle part contre le problème que j'ai soulevé dans ma réponse. En effet, la grande majorité des échantillons ne fournira aucune preuve d'une queue lourde - et le bootstrap, par définition, n'utilise que les données de l'échantillon lui-même.
whuber
1
@whuber Si les valeurs X sont tirées d'une loi de puissance symétrique, alors le CLT généralisé s'applique et le test KS détectera la différence. Je crois que votre observation ne caractérise pas correctement ce que vous dites être un "pas graduel de" fini "à" infini ""
Mur1lo
1
The CLT never "applies" to any finite sample. It's a theorem about a limit.
whuber
1
When I say that it "applies" I'm only saying that it provides a good approximation if we have a large sample.
Mur1lo
1
The vagueness of "good approximation" and "large" unfortunately fail to capture the logic of hypothesis tests. Implicit in your statement is the possibility of collecting an ever larger sample until you are able to detect the heavy-tailedness: but that's not how hypotheses tests usually work. In the standard setting you have a given sample and your task is to test whether it is from a distribution in the null hypothesis. In this case, bootstrapping won't do that any better than any more straightforward test.
whuber