Nombre minimal de points pour une régression linéaire

16

Quel serait un nombre minimal «raisonnable» d'observations pour rechercher une tendance dans le temps avec une régression linéaire? qu'en est-il de l'ajustement d'un modèle quadratique?

Je travaille avec des indices composites d'inégalité en santé (SII, RII), et n'ai que 4 vagues de l'enquête, donc 4 points (1997,2001,2004,2008).

Je ne suis pas statisticien, mais j'ai l'impression intuitive que 4 points ne suffisent pas. Avez-vous une réponse et / ou des références?

Merci beaucoup,

Françoise

Françoise
la source
4
La règle générale habituelle est de 10 points pour chaque variable indépendante.
Peter Flom - Réintègre Monica
1
Comment mes indices sont-ils mesurés? S'ils incluent des estimations de la variabilité, deux pourraient suffire (en utilisant un test t ou son analogue). Le principe statistique de base qui s'applique ici est que lorsque la variation aléatoire est une explication improbable de ce que vous observez, vous avez le droit d'attribuer toute tendance apparente à des causes non aléatoires. Lorsque la tendance est forte, très peu de valeurs de données peuvent être nécessaires pour parvenir à une telle conclusion, malgré toutes les "règles générales" génériques.
whuber

Réponses:

12

La règle de base de Peters de 10 par covariable est une règle raisonnable. Une ligne droite peut parfaitement s'adapter à deux points quelconques quelle que soit la quantité de bruit dans les valeurs de réponse et une quadratique peut parfaitement s'adapter à seulement 3 points. Il est donc clair que dans presque toutes les circonstances, il serait approprié de dire que 4 points sont insuffisants. Cependant, comme la plupart des règles de base, il ne couvre pas toutes les situations. Les cas où le terme de bruit dans le modèle a une grande variance nécessiteront plus d'échantillons qu'un cas similaire où la variance d'erreur est faible.

Le nombre requis de points d'échantillonnage dépend des objets. Si vous effectuez une analyse exploratoire juste pour voir si un modèle (par exemple linéaire dans une covariable) semble meilleur qu'un autre (par exemple, une fonction quadratique de la covariable), moins de 10 points peut suffire. Mais si vous voulez des estimations très précises des coefficients de corrélation et de régression pour les covariables, vous pourriez avoir besoin de plus de 10 par covariable. Un critère d'exactitude de prédiction pourrait nécessiter encore plus d'échantillons que des estimations précises de paramètres. Il convient de noter que la variance des estimations et des prévisions implique toutes la variance du terme d'erreur des modèles.

Michael R. Chernick
la source
Bons points, Michael; J'essayais de rester simple. :-). Étant donné le sujet de la question d'origine, je serais très surpris si moins de 10 points étaient suffisants. Les mesures de l'inégalité en matière de santé semblent susceptibles d'avoir beaucoup d'erreurs, et les relations avec le temps sont peu susceptibles d'être très linéaires. Connaissez-vous des articles à ce sujet? C'est un sujet intéressant qui revient souvent.
Peter Flom - Réintègre Monica
@PeterFlom je ne sais pas. Je regarderais le livre de van Belle'a sur les règles statistiques pour voir s'il utilise une règle comme celle que vous avez mentionnée. La bonne chose à propos de son livre est qu'il explique la raison d'être de chaque règle. Je suis d'accord avec vous qu'une règle disant prendre au moins 10 par covariable est assez bonne et utiliser moins serait rarement sûr sauf dans certains cas exploratoires. Dans les sciences de la santé où je travaille, le terme de bruit semble toujours être important, mais peut-être que certaines expériences de physique ou d'ingénierie étroitement contrôlées pourraient avoir des mesures très précises et donc une petite erreur aléatoire.
Michael R. Chernick
J'essayais simplement de souligner la possibilité d'un petit bruit conduisant à avoir besoin de moins de 10 points, même si la possibilité peut être éloignée.
Michael R. Chernick
R2
+1, bonne info, mais il convient également de mentionner que si votre estimateur n'est pas biaisé, vous pouvez avoir un modèle saturé et toujours avoir une estimation des paramètres, si c'est tout ce dont vous avez besoin. Vous n'aurez pas d'estimation de la variabilité ou ne pourrez pas faire d'inférence. Cependant, dans certains cas où il existe de nombreux effets à estimer et où les données sont suffisamment difficiles à obtenir, des modèles saturés sont parfois utilisés. Ainsi, par exemple, dans ce cas, vous pourriez obtenir une estimation de la fonction avec le quadratique avec 3 points. Je ne veux pas nécessairement dire que c'est une bonne chose, mais c'est la vraie limite inférieure et la raison pour laquelle.
gung - Réintégrer Monica