Tests statistiques communs en tant que modèles linéaires

22

(MISE À JOUR: J'ai plongé plus profondément dans cela et j'ai publié les résultats ici )

La liste des tests statistiques nommés est énorme. De nombreux tests courants reposent sur l'inférence de modèles linéaires simples, par exemple, un test t à un échantillon est simplement y = β + ε qui est testé par rapport au modèle nul y = μ + ε, c'est-à-dire que β = μ où μ est une valeur nulle valeur - généralement μ = 0.

Je trouve que c'est un peu plus instructif à des fins pédagogiques que d'apprendre par cœur des modèles nommés, quand les utiliser et leurs hypothèses comme s'ils n'avaient rien à voir les uns avec les autres. Cette approche favorise ne favorise pas la compréhension. Cependant, je ne trouve pas de bonne ressource pour collecter cela. Je suis plus intéressé par les équivalences entre les modèles sous-jacents plutôt que par la méthode d' inférence à partir d'eux. Bien que, pour autant que je puisse voir, les tests de rapport de vraisemblance sur tous ces modèles linéaires donnent les mêmes résultats que l'inférence "classique".

Voici les équivalences que j'ai apprises jusqu'à présent, en ignorant le terme d'erreur et en supposant que toutes les hypothèses nulles sont absentes d'un effet:εN(0,σ2)

Test t à un échantillon: .y=β0H0:β0=0

Test t pour échantillons : y2-y1=β0H0:β0=0

Ceci est identique à un test t à un échantillon sur les différences par paire.

Test t à deux échantillons: y=β1Xje+β0H0:β1=0

où x est un indicateur (0 ou 1).

Corrélation de Pearson: y=β1X+β0H0:β1=0

Remarquez la similitude avec un test t à deux échantillons qui n'est qu'une régression sur un axe x binaire.

Corrélation Spearman: runenk(y)=β1runenk(X)+β0H0:β1=0

Ceci est identique à une corrélation de Pearson sur x et y transformés par rang.

ANOVA unidirectionnelle: y=β1x1+β2x2+β3x3+...H0:β1,β2,β3,...=β

où sont des indicateurs sélectionnant le pertinent (un est 1; les autres sont 0). Le modèle pourrait probablement être écrit sous forme matricielle comme .xiβxY=βX

ANOVA bidirectionnelle: y=β1X1+β2X2+β3X1X2H0:β3=0

pour deux facteurs à deux niveaux. Ici sont des vecteurs de bêtas où l'un est sélectionné par le vecteur indicateur . Le montré ici est l'effet d'interaction.βiXiH0

Pourrions-nous ajouter plus de "tests nommés" à cette liste de modèles linéaires? Par exemple, régression multivariée, autres tests "non paramétriques", tests binomiaux ou RM-ANOVA?

MISE À JOUR: des questions ont été posées et des réponses sur l'ANOVA et les tests t en tant que modèles linéaires ici sur SO. Voir cette question et les questions connexes balisées .

Jonas Lindeløv
la source
1
Je pense que ces comparaisons sont appropriées, mais qu'à un moment donné, il existe également de subtiles différences. Par exemple, prenez l'ANOVA unidirectionnelle: où une régression linéaire vous fournira les coefficients et dans la plupart des logiciels la signification par coefficient avec les tests de Wald (ce qui pourrait ne pas être approprié), une ANOVA fournira une seule valeur p indiquant si l'un des coefficients est significativement différent de zéro. Un test de rapport de vraisemblance entre un modèle nul et le modèle de régression d'intérêt pourrait être plus comparable. En tant que tel, je n'égaliserais pas complètement ces tests / modèles.
IWS
Bon point; J'ai mis à jour la question en disant que «je suis plus intéressé par les équivalences entre les modèles sous-jacents plutôt que par la méthode d' inférence à partir d'eux». Les tests de rapport de vraisemblance sur les ANOVA unidirectionnelles et les termes d'interaction donnent des valeurs de p identiques à celles des analyses "classiques" pour autant que mes tests le soient.
Jonas Lindeløv
1
Assez juste, mais déduction faite, notez que les modèles de régression offrent également une flexibilité supplémentaire lors de la gestion de la non-linéarité (bien que les transformations puissent également être testées avec ces `` tests nommés '', les splines sont une question différente) ou de la gestion de l'hétéroscédasticité, sans même mentionner la famille de modèles généralisés qui traitent également des variables dépendantes non continues. Néanmoins, je peux voir expliquer les tests nommés car les variations restrictives des modèles de régression à des fins pédagogiques peuvent avoir du mérite, donc +1
IWS
1
La corrélation de rang de Spearman est-elle vraiment un modèle linéaire?
Martin Dietz
1
@MartinDietz: Oui, après avoir transformé les rangs x et y, il est linéaire. Code R:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')
Jonas Lindeløv

Réponses:

6

Pas une liste exhaustive mais si vous incluez des modèles linéaires généralisés , la portée de ce problème devient considérablement plus grande.

Par exemple:

Le test de tendance de Cochran-Armitage peut être formulé par:

E[logit(p)|t]=β0+β1tH0:β1=0

Le test d'indépendance de Pearson Chi-Square pour une table de contingencep×k est un modèle log-linéaire pour les fréquences cellulaires donné par:

E[Journal(μ)]=β0+βje.+β.j+γjejje,j>1H0:γjej=0,je,j>1

De plus, le test t pour les variances inégales est bien approximé en utilisant l'estimation d'erreur robuste de Huber White.

AdamO
la source