Lorsque j'effectue une régression linéaire dans certains logiciels (par exemple Mathematica), j'obtiens des valeurs de p associées aux paramètres individuels du modèle. Par exemple, les résultats d'une régression linéaire qui produit un résultat auront une valeur p associée à a et une à b .
Que signifient ces valeurs p individuellement sur ces paramètres?
Existe-t-il un moyen général de calculer les paramètres d'un modèle de régression?
La valeur de p associée à chaque paramètre peut-elle être combinée en une valeur de p pour l'ensemble du modèle?
Pour garder cette question de nature mathématique, je ne recherche que l'interprétation des valeurs de p en termes de probabilités.
probability
regression
Henry B.
la source
la source
Réponses:
La valeur de p pour est la valeur de p dans un test de l'hypothèse " α = 0 " (généralement un test t bilatéral). La valeur de p pour b est la valeur de p dans un test de l'hypothèse " β = 0 " (également généralement un test t bilatéral) et de même pour tous les autres coefficients de la régression. Les modèles de probabilité de ces tests sont déterminés par celui supposé dans le modèle de régression linéaire. Pour la régression linéaire des moindres carrés, la paire ( a , b ) suit une distribution normale bivariée centrée sur les vraies valeurs des paramètres ( α , βa α=0 t b β=0 t a,b α,β ), et le test d'hypothèse pour chaque coefficient équivaut à tester si α = 0 (resp. β = 0 ) sur la base d'échantillons d'une distribution normale appropriée [d'une variable, c'est-à-dire la distribution de a ou b seul]. Les détails dont les distributions normales apparaissent sont quelque peu compliquées et impliquent « degrés de liberté » et « matrices de chapeau » (basé sur la notation A pour certaines des matrices qui apparaissent constamment dans la théorie de la régression OLS).t α=0 β=0 a b A^
Oui. Habituellement, cela est fait (et défini) par une estimation de vraisemblance maximale . Pour la régression linéaire OLS et un petit nombre d'autres modèles, il existe des formules exactes pour estimer les paramètres à partir des données. Pour les régressions plus générales, les solutions sont de nature itérative et numérique.
Pas directement. Une valeur de p est calculée séparément pour un test de l'ensemble du modèle, c'est-à-dire un test de l'hypothèse selon laquelle tous les coefficients (des variables présumées varier réellement, n'incluant donc pas le coefficient du «terme constant» s'il y a une). Mais cette valeur de p ne peut généralement pas être calculée à partir de la connaissance des valeurs de p des coefficients.
la source
par rapport à votre première question: cela dépend du logiciel de votre choix. Il existe en réalité deux types de valeurs de p qui sont fréquemment utilisés dans ces scénarios, tous deux généralement basés sur des tests de rapport de vraisemblance (il y en a d'autres mais ils sont généralement équivalents ou du moins diffèrent peu dans leurs résultats).
Il est important de réaliser que toutes ces valeurs de p sont conditionnelles (en partie) au reste des paramètres. Cela signifie: en supposant que (certaines) des autres estimations de paramètres sont correctes, vous testez si le coefficient d'un paramètre est nul ou non. En règle générale, l'hypothèse nulle pour ces tests est que le coefficient est nul, donc si vous avez une petite valeur p, cela signifie (conditionnellement à la valeur des autres coefficients) que le coefficient lui-même est peu susceptible d'être nul.
Les tests de type I testent la zérosité de chaque coefficient conditionnellement à la valeur des coefficients qui le précèdent dans le modèle (de gauche à droite). Tests de type III (tests marginaux), test de la zérosité de chaque coefficient conditionnel à la valeur de tous les autres coefficients.
Différents outils présentent différentes valeurs de p comme valeur par défaut, bien que vous puissiez généralement obtenir les deux. Si vous n'avez aucune raison en dehors des statistiques pour inclure les paramètres dans un certain ordre, vous serez généralement intéressé par les résultats des tests de type III.
Enfin (concernant davantage votre dernière question), avec un test de rapport de vraisemblance, vous pouvez toujours créer un test pour n'importe quel ensemble de coefficients conditionnel au reste. C'est la voie à suivre si vous souhaitez tester plusieurs coefficients à zéro en même temps (sinon vous rencontrez des problèmes de tests multiples désagréables).
la source