Signification des valeurs de p dans la régression

Lorsque j'effectue une régression linéaire dans certains logiciels (par exemple Mathematica), j'obtiens des valeurs de p associées aux paramètres individuels du modèle. Par exemple, les résultats d'une régression linéaire qui produit un résultat auront une valeur p associée à et une à . $ax+b$ $a$ $b$

Que signifient ces valeurs p individuellement sur ces paramètres?
Existe-t-il un moyen général de calculer les paramètres d'un modèle de régression?
La valeur de p associée à chaque paramètre peut-elle être combinée en une valeur de p pour l'ensemble du modèle?

Pour garder cette question de nature mathématique, je ne recherche que l'interprétation des valeurs de p en termes de probabilités.

probability regression Henry B.
la source

La réponse de Gavin à la question @cardinal liée à le dit bien.

JM n'est pas statisticien

@zyx, il n'y a rien d'avancé sur les questions du PO. Ce sont des questions très courantes pour lesquelles, à mon avis, stats.SE est plus approprié --- et auxquelles les participants sont également plus à l'écoute. Math.SE et MO sont tous deux d'excellentes ressources pour les questions de probabilité, mais beaucoup moins pour les questions statistiques. Les questions du PO s'adressent beaucoup plus à ce dernier.

cardinal

@cardinal: J'ai suivi stats.SE depuis le début de la version bêta publique. Sur 4800+ questions à ce jour, je n'ai pas pu en trouver une qui pose ou répond au point 3 de l'OP, ce qui est étrange s'il s'agit d'une requête "très courante". Je n'ai pas non plus vu de réponses conceptuellement précises au point 1 sur les quelques fois où il a été soulevé. Je pense que ces choses devraient être publiées périodiquement sur math.SE et MO pour attirer l'attention d'un public plus large, et non migrées en quelques minutes sur stats.SE. Cela ne fait pas de mal de demander également sur stat.SE, mais transformer ce dernier en le seul endroit où les statistiques peuvent être discutées n'est pas utile.

zyx

Il y a maintenant un fil sur les migrations math.SE vers stats.SE dans meta.math.SE.

zyx

(Certains commentaires référencés ci-dessus ont été perdus lors de la migration. Ils sont visibles dans la publication math.SE d'origine, liée ci-dessous à côté des mots "migré de ...")

zyx

Réponses:

La valeur de p pour est la valeur de p dans un test de l'hypothèse " " (généralement un test bilatéral). La valeur de p pour est la valeur de p dans un test de l'hypothèse " " (également généralement un test bilatéral) et de même pour tous les autres coefficients de la régression. Les modèles de probabilité de ces tests sont déterminés par celui supposé dans le modèle de régression linéaire. Pour la régression linéaire des moindres carrés, la paire ( ) suit une distribution normale bivariée centrée sur les vraies valeurs des paramètres ( $a$ $\alpha = 0$ $t$ $b$ $\beta = 0$ $t$ $a,b$ $\alpha, \beta$ ), et le test d'hypothèse pour chaque coefficient équivaut à tester si (resp. ) sur la base d'échantillons d'une distribution normale appropriée [d'une variable, c'est-à-dire la distribution de ou seul]. Les détails dont les distributions normales apparaissent sont quelque peu compliquées et impliquent « degrés de liberté » et « matrices de chapeau » (basé sur la notation pour certaines des matrices qui apparaissent constamment dans la théorie de la régression OLS). $t$ $\alpha = 0$ $\beta=0$ $a$ $b$ $\hat{A}$
Oui. Habituellement, cela est fait (et défini) par une estimation de vraisemblance maximale . Pour la régression linéaire OLS et un petit nombre d'autres modèles, il existe des formules exactes pour estimer les paramètres à partir des données. Pour les régressions plus générales, les solutions sont de nature itérative et numérique.
Pas directement. Une valeur de p est calculée séparément pour un test de l'ensemble du modèle, c'est-à-dire un test de l'hypothèse selon laquelle tous les coefficients (des variables présumées varier réellement, n'incluant donc pas le coefficient du «terme constant» s'il y a une). Mais cette valeur de p ne peut généralement pas être calculée à partir de la connaissance des valeurs de p des coefficients.

zyx
la source

Dans votre point (1.), il semble y avoir un peu de confusion entre un paramètre et un estimateur . La valeur de

est associée à l'estimateur plutôt qu'au paramètre et les estimateurs sont normaux à deux variables, pas les paramètres (qui, au moins, dans les statistiques classiques sont considérés comme fixes). De plus, vos commentaires au point (3) peuvent prêter à confusion car il est tout à fait possible (et assez courant) que certaines des valeurs

individuelles des estimations de régression soient à la fois plus grandes et plus petites que la valeur

conjointe de la valeur correspondante.

test.

p

$p$

p

$p$

p

$p$

F

$F$

Cardinal

@NRH: Désolé, pouvez-vous clarifier votre commentaire précédent. Je ne le suis pas encore tout à fait. :)

cardinal

@cardinal: il semble plus exact de dire qu'une valeur de p est associée à un test d'hypothèse. Les paramètres apparaissent dans l'hypothèse nulle du test et le couple (valeur observée de l'estimateur, hypothèse alternative) détermine alors une valeur de p. Les hypothèses nulles doivent être décrites en utilisant des paramètres, tels que α = 0 plutôt que des estimateurs a = 0 comme cela a été [négligemment] fait dans la réponse originale, maintenant éditée (merci de signaler l'erreur). Cependant, la distinction supposée confuse ou manquante «les estimateurs sont normaux à deux variables, pas les paramètres» a été explicitement énoncée dans la réponse.

zyx

Désolé, je n'ai pas pu résister. @zyx a fait un commentaire sur le post original sur math.SE que les réponses sur stat.SE étaient souvent imprécises. Je trouve que de nombreuses réponses sont assez précises bien que parfois imprécises sur le plan mathématique. C'est dans la nature des choses. Les questions et réponses statistiques ne peuvent pas toujours être réduites à des énoncés mathématiques précis. Surtout pas les plus difficiles. Pourtant, la réponse fournie ici n'est ni particulièrement exacte ni précise à mon avis.

NRH

Je pense que ce serait bien si la personne ayant voté en aval fournissait un commentaire explicatif.

cardinal

par rapport à votre première question: cela dépend du logiciel de votre choix. Il existe en réalité deux types de valeurs de p qui sont fréquemment utilisés dans ces scénarios, tous deux généralement basés sur des tests de rapport de vraisemblance (il y en a d'autres mais ils sont généralement équivalents ou du moins diffèrent peu dans leurs résultats).

Il est important de réaliser que toutes ces valeurs de p sont conditionnelles (en partie) au reste des paramètres. Cela signifie: en supposant que (certaines) des autres estimations de paramètres sont correctes, vous testez si le coefficient d'un paramètre est nul ou non. En règle générale, l'hypothèse nulle pour ces tests est que le coefficient est nul, donc si vous avez une petite valeur p, cela signifie (conditionnellement à la valeur des autres coefficients) que le coefficient lui-même est peu susceptible d'être nul.

Les tests de type I testent la zérosité de chaque coefficient conditionnellement à la valeur des coefficients qui le précèdent dans le modèle (de gauche à droite). Tests de type III (tests marginaux), test de la zérosité de chaque coefficient conditionnel à la valeur de tous les autres coefficients.

Différents outils présentent différentes valeurs de p comme valeur par défaut, bien que vous puissiez généralement obtenir les deux. Si vous n'avez aucune raison en dehors des statistiques pour inclure les paramètres dans un certain ordre, vous serez généralement intéressé par les résultats des tests de type III.

Enfin (concernant davantage votre dernière question), avec un test de rapport de vraisemblance, vous pouvez toujours créer un test pour n'importe quel ensemble de coefficients conditionnel au reste. C'est la voie à suivre si vous souhaitez tester plusieurs coefficients à zéro en même temps (sinon vous rencontrez des problèmes de tests multiples désagréables).

Nick Sabbe
la source

p

$p$

ψ = c^{'} β

$\psi = c'\beta$

t = \frac{\hat{ψ} - ψ_{0}}{\hat{σ} \sqrt{c^{'} (X^{'} X)^{- 1} c}}

$t = \frac{\hat{\psi} - \psi_0}{\hat{\sigma} \sqrt{c' (X' X)^{-1} c}}$

\hat{ψ} = c^{'} \hat{β}

$\hat{\psi} = c'\hat{\beta}$

\hat{β}

$\hat{\beta}$

c

$c$

X

$X$

\hat{σ}

$\hat{\sigma}$

| | e | |^{2} / (n - (p + 1))

$||e||^2 / (n - (p+1))$

e

$e$

j

$j$

c

$c$

j

$j$

ψ_{0} = 0

$\psi_0 = 0$

t

$t$

L'essence de la question est capturée par exemple ici . N'oubliez pas que l'anova n'est qu'un cas particulier de régression. Fondamentalement, cela se résume à ceci: si vous effectuez un test de zérosité (du coefficient de) la variable A dans un modèle avec ou sans variable B, vous pouvez obtenir des résultats différents. Par conséquent, le résultat dépend de votre modèle, des données (même pour les valeurs de la variable B) et donc des coefficients non pas dans votre test mais dans votre modèle. Trouver cette idée dans les mathématiques peut être un peu plus difficile :-)

Nick Sabbe

p - 1

$p-1$

p

$p$

c^{'} β

$c'\beta$

β_{j}

$\beta_j$

F = \frac{(S S_{e r} - S S_{e u}) / (d f_{e r} - d f_{e u})}{S S_{e u} / d f_{e u}}

$F = \frac{(SS_{er} - SS_{eu}) / (df_{er} - df_{eu})}{SS_{eu} / df_{eu}}$

S S_{e r}

$SS_{er}$

d f_{e r}

$df_{er}$

| | e_{r} | |^{2}

$||e_r||^2$

u

$u$

Le cas continu doit être complètement équivalent à une variable codée dichotomique 0-1.

Nick Sabbe