Règles empiriques pour la taille minimale de l'échantillon pour la régression multiple

72

Dans le cadre d'une proposition de recherche en sciences sociales, on m'a posé la question suivante:

J'ai toujours choisi 100 + m (m étant le nombre de prédicteurs) lors de la détermination de la taille minimale de l'échantillon pour la régression multiple. Est-ce approprié?

Je reçois beaucoup de questions similaires, souvent avec des règles différentes. J'ai aussi souvent lu de telles règles empiriques dans divers manuels. Je me demande parfois si la popularité d'une règle en termes de citations est basée sur le niveau bas de la norme. Cependant, je suis également conscient de l'intérêt d'une bonne heuristique pour simplifier la prise de décision.

Des questions:

  • Quelle est l'utilité de simples règles empiriques pour la taille minimale des échantillons dans le contexte des chercheurs appliqués qui conçoivent des études de recherche?
  • Suggérez-vous une règle de base alternative pour la taille minimale de l'échantillon pour la régression multiple?
  • Sinon, quelles stratégies alternatives suggéreriez-vous pour déterminer la taille minimale de l'échantillon pour la régression multiple? En particulier, il serait bon d’attribuer une valeur au degré auquel une stratégie peut facilement être appliquée par un non-statisticien.
Jeromy Anglim
la source

Réponses:

36

Je ne suis pas fan des formules simples pour générer des tailles d'échantillon minimales. À tout le moins, toute formule devrait tenir compte de la taille de l'effet et des questions d'intérêt. Et la différence entre les deux côtés d'une coupure est minime.

Taille de l'échantillon en tant que problème d'optimisation

  • Des échantillons plus gros sont meilleurs.
  • La taille de l'échantillon est souvent déterminée par des considérations pragmatiques.
  • La taille de l'échantillon doit être considérée comme un élément à prendre en compte dans un problème d'optimisation où le coût en temps, en argent, en efforts, etc. pour obtenir de nouveaux participants est mis en balance avec les avantages liés à la présence de nouveaux participants.

Une règle approximative

En termes de règles empiriques très approximatives dans le contexte typique des études de psychologie d'observation impliquant des choses telles que les tests d'aptitude, les échelles d'attitude, les mesures de la personnalité, etc., je pense parfois à:

  • n = 100 comme suffisant
  • n = 200 aussi bon
  • n = 400 + aussi grand

Ces règles empiriques reposent sur les intervalles de confiance à 95% associés aux corrélations de ces niveaux respectifs et sur le degré de précision avec lequel j'aimerais théoriquement comprendre les relations d'intérêt. Cependant, ce n'est qu'une heuristique.

G puissance 3

La régression multiple teste plusieurs hypothèses

  • Toute question d'analyse de puissance nécessite de prendre en compte la taille de l'effet.
  • L'analyse de la puissance pour la régression multiple est compliquée par le fait qu'il existe plusieurs effets, y compris le r-carré global et un pour chaque coefficient individuel. De plus, la plupart des études incluent plusieurs régressions multiples. Pour moi, c’est une raison supplémentaire de s’appuyer davantage sur des méthodes heuristiques générales et de réfléchir à la taille minimale de l’effet que vous souhaitez détecter.

  • En ce qui concerne la régression multiple, je penserai souvent davantage en termes de degré de précision dans l’estimation de la matrice de corrélation sous-jacente.

Précision dans l'estimation des paramètres

J'aime aussi la discussion de Ken Kelley et de ses collègues sur l'exactitude de l'estimation des paramètres.

  • Voir le site Web de Ken Kelley pour les publications
  • Comme mentionné par @Dmitrij, Kelley et Maxwell (2003) FREE PDF ont un article utile.
  • Ken Kelley a développé le MBESSlogiciel en R pour effectuer des analyses reliant la taille de l'échantillon à la précision de l'estimation des paramètres.
Jeromy Anglim
la source
17

nR2R2Radj2R21(1R2)n1np1R2

pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

entrez la description de l'image iciR2R2Radj2

Si quelqu'un a déjà vu cela dans la presse, faites le moi savoir.

Frank Harrell
la source
1
R^2R2Radj2NNR^2R2
@ FrankHarrell: regardez ici, l'auteur semble utiliser les tracés 260-263 à peu près de la même manière que ceux de votre message ci-dessus.
user603
5
Radj2R2
12

(+1) pour une question cruciale, à mon avis.

4m4

La plupart des tailles d'échantillon sont liées à la puissance des tests pour l'hypothèse que vous allez tester après ajustement du modèle de régression multiple.

Il existe une belle calculatrice qui pourrait être utile pour plusieurs modèles de régression et une formule en coulisse. Je pense qu'une telle calculatrice de prieuré pourrait être facilement appliquée par un non-statisticien.

L' article de K.Kelley et SEMaxwell sera probablement utile pour répondre aux autres questions, mais il me faut d'abord plus de temps pour étudier le problème.

Dmitrij Celov
la source
11

mm=500500600

mm+1nm1m+1nO(m+1n)n=k(m+1)kO(1k)kk1020301,2,,26,27,28,29,

probabilislogic
la source
Vous dites que 10 à 20, c'est bien, mais est-ce que cela dépend aussi de la taille de la variance d'erreur (éventuellement par rapport à d'autres choses)? Par exemple, supposons qu'il n'y ait qu'une seule variable prédictive. Si l'on savait que la variance d'erreur était vraiment minime, il semble alors que 3 ou 4 points de données pourraient être suffisants pour estimer de manière fiable la pente et l'interception. D'autre part, si on savait que la variance d'erreur était énorme, alors même 50 points de données pourraient être inadéquats. Est-ce que je comprends mal quelque chose?
mark999
Pourriez-vous s'il vous plaît fournir une référence pour votre équation suggérée n=k(m+1)?
Sosi
6

En psychologie:

N>50+8mN>104+m

Les autres règles qui peuvent être utilisées sont ...

50

1030

adria
la source
1
Votre première 'règle' ne contient pas m.
Dason
Sa première règle empirique est la suivante N = 50 + 8 m: on se demandait si le terme 50 était effectivement nécessaire
Sosi
J'ai ajouté une nouvelle règle plus complexe qui prend en compte la taille de l'effet de l'échantillon. Cela a également été présenté par Green (1991).
Sosi
2
Quelles sont les citations complètes des références Green (1991) et Harris (1985)?
Hatshepsut
2

Je conviens que les calculateurs de puissance sont utiles, en particulier pour voir l’effet de différents facteurs sur le pouvoir. En ce sens, les calculatrices qui incluent plus d’informations d’entrée sont bien meilleures. Pour la régression linéaire, j'aime la calculatrice de régression ici qui comprend des facteurs tels que l' erreur dans Xs, la corrélation entre les Xs, et plus encore.

Galit Shmueli
la source
0

R2

( pdf )

Bien entendu, comme le notent également les auteurs du document, l’impartialité (relative) n’implique pas nécessairement un pouvoir statistique suffisant. Cependant, les calculs de puissance et de taille d’échantillon sont généralement effectués en spécifiant les effets attendus; dans le cas d'une régression multiple, cela implique une hypothèse sur la valeur des coefficients de régression ou sur la matrice de corrélation entre les régresseurs et le résultat obtenu. En pratique, cela dépend de la force de la corrélation des régresseurs avec le résultat et entre eux (évidemment, le plus fort est le mieux pour la corrélation avec le résultat, alors que les choses empirent avec la multicolinéarité). Par exemple, dans le cas extrême de deux variables parfaitement colinéaires, vous ne pouvez pas effectuer la régression quel que soit le nombre d'observations et même avec seulement 2 covariables.

Federico Tedeschi
la source