Le test F classique pour des sous-ensembles de variables en régression multilinéaire a la forme où est la somme des erreurs quadratiques sous le modèle "réduit", qui nichent à l'intérieur du "grand" modèle , et sont les degrés de liberté du deux modèles. Dans l'hypothèse nulle selon laquelle les variables supplémentaires du «grand» modèle n'ont pas de pouvoir explicatif linéaire, la statistique est distribuée sous la forme d'un F avec et df_B degrés de liberté.
Quelle est cependant la répartition sous l'alternative? Je suppose que c'est un F non central (j'espère pas doublement non central), mais je ne trouve aucune référence sur ce qu'est exactement le paramètre de non-centralité. Je vais deviner que cela dépend des vrais coefficients de régression , et probablement de la matrice de conception , mais au-delà, je ne suis pas si sûr.
J'ai confirmé la réponse de @ caracal avec une expérience de Monte Carlo. J'ai généré des instances aléatoires à partir d'un modèle linéaire (avec la taille aléatoire), calculé la statistique F et calculé la valeur p en utilisant le paramètre de non-centralité puis j'ai tracé le cdf empirique de ces valeurs de p. Si le paramètre de non-centralité (et le code!) Est correct, je devrais obtenir un cdf presque uniforme, ce qui est le cas:
Voici le code R (pardonnez le style, j'apprends encore):
la source