Pour un exemple simple, supposons qu'il existe deux modèles de régression linéaire
- Modèle 1 a trois prédicteurs,
x1a
,x2b
etx2c
- Le modèle 2 a trois prédicteurs du modèle 1 et deux prédicteurs supplémentaires
x2a
etx2b
Il existe une équation de régression de la population où la variance de la population expliquée est pour le modèle 1 et pour le modèle 2. La variance incrémentielle expliquée par le modèle 2 dans la population est
Je souhaite obtenir des erreurs standard et des intervalles de confiance pour un estimateur de . Bien que l'exemple concerne respectivement 3 et 2 prédicteurs, mon intérêt de recherche concerne un large éventail de nombres différents de prédicteurs (par exemple, 5 et 30). Ma première pensée a été d'utiliser comme estimateur et de le bootstrap, mais je ne savais pas si cela Être approprié.
Des questions
- Est un estimateur raisonnable de ?
- Comment obtenir un intervalle de confiance pour le changement du carré de la population (c.-à-d. )?
- Le bootstrapping conviendrait-il pour le calcul de l'intervalle de confiance?
Toute référence à des simulations ou à la littérature publiée serait également la bienvenue.
Exemple de code
Si cela aide, j'ai créé un petit ensemble de données de simulation dans R qui pourrait être utilisé pour démontrer une réponse:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Raison de préoccupation avec bootstrap
J'ai exécuté un bootstrap sur certaines données avec environ 300 cas, et 5 prédicteurs dans le modèle simple et 30 prédicteurs dans le modèle complet. Bien que l'estimation de l'échantillon à l'aide de la différence r ajustée soit 0.116
, l'intervalle de confiance boostrapped était pour la plupart plus grand IC95% (0,095 à 0,214) et la moyenne des bootstraps était loin de l'estimation de l'échantillon. La moyenne des échantillons boostés semble plutôt être centrée sur l'estimation de l'échantillon de la différence entre les carrés r dans l'échantillon. Ceci malgré le fait que j'utilisais les r-carrés ajustés de l'échantillon pour estimer la différence.
Fait intéressant, j'ai essayé une autre façon de calculer comme
- calculer l'échantillon de changement de carré
- ajuster le changement de carré de l'échantillon en utilisant la formule standard de carré ajusté
Lorsqu'elle est appliquée aux données de l'échantillon, cela réduit l'estimation de à mais les intervalles de confiance semblent appropriés pour la méthode que j'ai mentionnée en premier, IC95% (.062, .179) avec une moyenne de .118..082
En gros, je crains que le bootstrap suppose que l'échantillon est la population, et donc les estimations que la réduction pour sur-ajustement peut ne pas fonctionner correctement.
la source
Réponses:
PopulationR2
Je suis tout d' abord essayer de comprendre la définition de la population R-carré .
Citant votre commentaire:
Je pense que vous voulez dire que c'est la limite de l'échantillon lorsque l'on réplique le modèle infiniment de fois (avec les mêmes prédicteurs à chaque répétition).R2
Alors, quelle est la formule de la valeur asymptotique de l'échantillon ? Écrivez votre modèle linéaire comme dans https://stats.stackexchange.com/a/58133/8402 , et utilisez les mêmes notations que ce lien. On peut alors vérifier que l'échantillon va dans quand on réplique le modèle infiniment de fois.Y = μ + σ G R 2 p o p R 2 : = λR2 Oui= μ + σg
R2 Y=μ+σGp o p R2: = λn + λ Oui= μ + σg
Comme exemple:
Population d'un sous-modèleR2
Supposons maintenant que le modèle est avec et considérons le sous-modèle . H1:μ∈W1H0:μ∈W0Oui= μ + σg H1: μ ∈ W1 H0: μ ∈ W0
Ensuite, j'ai dit ci-dessus que la population du modèle est où et et ensuite on a simplement .H 1 p o p R 2 1 : = λ 1R2 H1 λ1=‖ P Z 1 μ‖2p o p R21: = λ1n + λ1 Z1=[1]⊥∩W1‖PZ1μ‖2=∑(μi-ˉμ)2λ1= ∥ PZ1μ ∥2σ2 Z1= [ 1 ]⊥∩ W1 ∥ PZ1μ ∥2= ∑ ( μje- μ¯)2
Définissez-vous maintenant la population du sous - modèle comme la valeur asymptotique du calculée par rapport au modèle mais sous l'hypothèse de distribution du modèle ? La valeur asymptotique (s'il y en a une) semble plus difficile à trouver.H 0 R 2 H 0 H 1R2 H0 R2 H0 H1
la source
Plutôt que de répondre à la question que vous avez posée, je vais vous demander pourquoi vous posez cette question. Je suppose que vous voulez savoir si
est au moins aussi bon que
à expliquer
y
. Étant donné que ces modèles sont imbriqués, la façon évidente de répondre à cette question semble être d'exécuter une analyse de variance en les comparant, de la même manière que vous pourriez exécuter une analyse de la déviance pour deux GLM, commeEnsuite, vous pouvez utiliser l'échantillon d'amélioration du carré R entre les modèles comme meilleure estimation de ce que serait l'amélioration de l'ajustement dans la population, en supposant toujours que vous pouvez donner un sens à la population R au carré. Personnellement, je ne suis pas sûr de pouvoir le faire, mais cela n'a pas d'importance dans les deux cas.
Plus généralement, si vous êtes intéressé par les quantités de population, vous êtes probablement intéressé par la généralisation, donc une mesure d'ajustement d'échantillon n'est pas tout à fait ce que vous voulez, même si elle est «corrigée». Par exemple, la validation croisée d'une certaine quantité qui estime le type et la quantité d'erreurs réelles que vous pourriez vous attendre à faire à partir d'un échantillon, comme MSE, semblerait obtenir ce que vous voulez.
Mais il est fort possible que je manque quelque chose ici ...
la source
Les éléments suivants représentent quelques possibilités de calcul des intervalles de confiance sur .ρ2
Bootstrap carré double ajusté
Ma meilleure supposition actuelle sur une réponse est de faire un bootstrap r-square à double ajustement. J'ai implémenté la technique. Elle implique les éléments suivants:
Le raisonnement est que le premier carré r ajusté supprime le biais introduit par le bootrapping (c.-à-d. Que le bootstrapping suppose que le carré r de l'échantillon est le carré r de la population). Le deuxième carré r ajusté effectue la correction standard qui est appliquée à un échantillon normal pour estimer le carré r de la population.
À ce stade, tout ce que je peux voir, c'est que l'application de cet algorithme génère des estimations qui semblent à peu près correctes (c'est-à-dire que le theta_hat moyen dans le bootstrap est très proche de l'exemple theta_hat). L'erreur standard correspond à mon intuition. Je n'ai pas encore testé s'il fournit une couverture fréquentiste appropriée là où le processus de génération de données est connu, et je ne suis pas non plus entièrement sûr à ce stade comment l'argument pourrait être justifié à partir des premiers principes
Si quelqu'un voit des raisons pour lesquelles cette approche serait problématique, je serais reconnaissant d'en entendre parler.
Simulation par Algina et al
Stéphane a mentionné l'article d'Algina, Keselman et Penfield. Ils ont effectué une étude de simulation pour examiner la couverture de l'intervalle de confiance à 95% des méthodes d'amorçage et asymptotiques pour estimer . Leurs méthodes d'amorçage n'impliquaient qu'une seule application du carré r ajusté, plutôt que le double ajustement du carré r que je mentionne ci-dessus. Ils ont constaté que les estimations bootstrap ne fournissaient une bonne couverture que lorsque le nombre de prédicteurs supplémentaires dans le modèle complet était de un ou peut-être deux. C'est mon hypothèse que c'est parce que plus le nombre de prédicteurs augmente, plus la différence entre le bootstrap r et carré ajusté simple et double augmente.Δρ2
Smithson (2001) sur l'utilisation du paramètre de non-centralité
Smithson (2001) discute du calcul des intervalles de confiance pour le partiel en fonction du paramètre de non-centralité. Voir notamment pages 615 et 616. Il suggère qu '"il est simple de construire un IC pour et partiel mais pas pour la corrélation semi-partisane au carré". (p.615)f 2 R 2R2 f2 R2
Références
la source