Impact des limites de bacs basées sur des données sur un test d'adéquation du chi carré?

18

Laissant de côté le problème évident de la faible puissance du chi carré dans ce genre de circonstances, imaginez faire un test de qualité khi carré pour une certaine densité avec des paramètres non spécifiés, en regroupant les données.

Pour le concret, disons une distribution exponentielle avec une moyenne inconnue et un échantillon de disons 100.

Afin d'obtenir un nombre raisonnable d'observations attendues par casier, il faudrait tenir compte des données (par exemple, si nous choisissions de mettre 6 casiers en dessous de la moyenne et 4 au-dessus, cela continuerait à utiliser les limites des casiers basées sur les données) .

Mais cette utilisation des bacs basée sur la visualisation des données affecterait vraisemblablement la distribution de la statistique de test sous le zéro.

J'ai vu beaucoup de discussions sur le fait que - si les paramètres sont estimés selon la probabilité maximale à partir des données regroupées - vous perdez 1 df par paramètre estimé (un problème qui remonte à Fisher vs Karl Pearson) - mais je ne me souviens pas lire quoi que ce soit sur la recherche des limites de bacs elles-mêmes sur la base des données. (Si vous les estimez à partir des données non combinées, alors avec k cases la distribution de la statistique de test se situe quelque part entre a χk2 et a χkp2 .)

Ce choix de bacs basé sur des données a-t-il un impact significatif sur le niveau de signification ou la puissance? Y a-t-il des approches plus importantes que d'autres? S'il y a beaucoup d'effet, est-ce quelque chose qui disparaît dans les grands échantillons?

Si cela a un impact substantiel, cela semblerait rendre l'utilisation d'un test du chi carré lorsque les paramètres sont inconnus presque inutile dans de nombreux cas (bien qu'il soit toujours préconisé dans de nombreux textes), sauf si vous aviez un bon -estimation prioritaire du paramètre.

Une discussion des questions ou des références à des références (de préférence avec une mention de leurs conclusions) serait utile.


Modifier, à peu près un côté de la question principale:

Il me semble qu'il existe des solutions potentielles pour le cas spécifique de l'exponentielle * (et l'uniforme en viennent à y penser), mais je suis toujours intéressé par la question plus générale de l'impact du choix des limites de bac.

* Par exemple, pour l'exponentielle, on pourrait utiliser la plus petite observation (disons qu'elle est égale à ) pour avoir une idée très approximative de l'emplacement des bacs (puisque la plus petite observation est exponentielle avec une moyenne μ / n ), puis tester les n - 1 différences restantes ( x i - m ) pour l'exponentialité. Bien sûr, cela pourrait donner une très mauvaise estimation de μmμ/nn1ximμ, et donc de mauvais choix de cases, bien que je suppose que l'on pourrait utiliser l'argument de manière récursive afin de prendre les deux ou trois observations les plus basses parmi lesquelles choisir des cases raisonnables, puis tester les différences des observations restantes au-dessus de la plus grande de ces statistiques d'ordre le plus petit pour exponentialité)

Glen_b -Reinstate Monica
la source
1
Question interessante. Je ne connais pas la réponse, mais l'idée que certains degrés de liberté devraient être perdus est logique. Si vous ne l'aviez pas déjà vu, cette réponse de @whuber devrait être source de réflexion: comment comprendre les degrés de liberté . Il me semble que certaines études de simulation devraient vous permettre d'avoir un aperçu ici, du moins pour certains cas spécifiques.
gung - Rétablir Monica
1
Je ne sais pas à quel point cela est utile, mais il existe un problème similaire dans le domaine de l'estimation robuste. Plus précisément, une méthode d'estimation robuste (par exemple, la moyenne ajustée) nécessite souvent une entrée paramétrée (par exemple, un paramètre définissant la quantité à ajuster). Ce paramètre peut être choisi par une méthode basée sur les données (par exemple, voyez comment les queues sont grasses avant de choisir le paramètre de coupe). Mais la présélection du paramètre d'ajustement affecte la distribution de la moyenne ajustée par rapport, disons, à une règle de paramètre fixe. La manière habituelle de traiter cela dans cette littérature est via un bootstrap.
Colin T Bowers,
@ColinTBowers - potentiellement quelque peu utile, merci. Je n'ai pas pensé à la possibilité de bootstrap.
Glen_b -Reinstate Monica
1
Il pourrait être intéressant de décomposer le problème en un cas simple. Imaginez quelque chose comme seulement 5 observations de votre distribution préférée et placez un seul séparateur dans les données pour ne former que deux cases.
zkurtz

Réponses:

15

Les résultats de base des tests de qualité d'ajustement du khi carré peuvent être compris de manière hiérarchique .

Niveau 0 . La statistique du test chi carré de Pearson classique pour tester un échantillon multinomial contre un vecteur de probabilité fixe est X 2 ( p ) = k i = 1 ( X ( n ) i - n p i ) 2p X ( n ) i désigne le nombre de résultats dans la i ème cellule d'un échantillon de taille n . Ceci peut être considéré comme la norme quadratique du vecteur Y n = ( Y ( n ) 1 , , Y ( n ) k ) Y ( n ) i = ( X ( n ) i - n

X2(p)=i=1k(Xi(n)npi)2npidχk12,
Xi(n)inYn=(Y1(n),,Yk(n)) qui, par le théorème de la limite centrale multivariée converge en distribution comme Y n d N(0,I-Yi(n)=(Xi(n)npi)/npi On voit de là que X 2 = Y n 2χ 2 k - 1 puisque I -
YndN(0,IppT).
X2=Yn2χk12est idempotent de rangk-1.IppTk1

pmpi

X12=i=1k(Xi(n)np^i)2np^idχkm12,

λk

mm=1

X22=i=1k(Xi(n)np^i)2np^idχkm12,
p^i

Z1,,ZnFλλχkm12χk12

YnN(0,IpλpλTA(λ))

λA(λ)

YnB(λ^)

YnTBTBYndχk12,
k

Des exemples sont la statistique Rao – Robson – Nikulin et la statistique Dzhaparidze – Nikulin .

k1/kI^j=μ^+σ^I0,j where I0,j=[F1((j1)/k),F1(j/k)). This result has been further extended to the case where the number of random cells grows with the sample size.

References

  1. A W. van der Vaart (1998), Asymptotic Statistics, Cambridge University Press. Chapter 17: Chi-Square Tests.

  2. H. Chernoff and E. L. Lehmann (1954), The use of maximum likelihood estimates in χ2 tests for goodness of fit, Ann. Math. Statist., vol. 25, no. 3, 579–586.

  3. F. C. Drost (1989), Generalized chi-square goodness-of-fit tests for location-scale models when the number of classes tends to infinity, Ann. Stat, vol. 17, no. 3, 1285–1300.

  4. M. S. Nikulin, M.S. (1973), Chi-square test for continuous distribution with shift and scale parameters, Theory of Probability and its Application, vol. 19, no. 3, 559–568.

  5. K. O. Dzaparidze and M. S. Nikulin (1973), On a modification of the standard statistics of Pearson, Theory of Probability and its Application, vol. 19, no. 4, 851–853.

  6. K. C. Rao and D. S. Robson (1974), A chi-square statistic for goodness of fit tests within exponential family, Comm. Statist., vol 3., no. 12, 1139–1153.

  7. N. Balakrishnan, V. Voinov and M. S. Nikulin (2013), Chi-Squared Goodness of Fit Tests With Applications, Academic Press.

cardinal
la source
5

I've found at least partial answers to my question, below. (I'd still like to give someone that bonus, so any further information appreciated.)

Moore (1971) said that Roy (1956) and Watson (1957,58,59) showed that when the cell boundaries for a chi-square statistic are functions of best asymptotic normal estimated parameter values, then under certain conditions, the asymptotic null distribution of the chi-square statistic is still that of a sum of a χkp12 and a weighted sum of p χ12 variables (for k cells, p parameters) where the weights are between 0 and 1 (making the cdf of the distribution between that of a χkp2 and a χk2, as alluded to in my question for the distribution when using ML estimation), and the weights on those last p terms are unaffected by that estimation.

References

Moore D.S. (1971), A Chi-Square Statistic with Random Cell Boundaries, Ann. Math. Stat., Vol 42, No 1, 147–156.

Roy A.R. (1956), On χ2 statistics with variable intervals, Technical Report No. 1, Dept of Statistics, Stanford University.

Watson, G.S. (1957), The χ2 goodness-of-fit test for normal distributions, Biometrika, 44, 336–348.

Watson, G.S. (1958), On χ2 goodness-of-fit tests for continuous distributions, J. Royal Statist. Soc. B, 20, 44–61.

Watson, G.S. (1959), Some recent results in χ2 goodness-of- fit tests, Biometrics, 15, 440-468

Glen_b -Reinstate Monica
la source