Que signifie ce flou autour de la ligne dans ce graphique?

8

Je jouais avec ggplot2 en utilisant les commandes suivantes pour ajuster une ligne à mes données:

ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + 
stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + 
stat_sum_single(median) + 
stat_sum_single(mean, colour="blue") + 
geom_smooth(level = 0.95, aes(group=1), method="lm")

Les points rouges sont des valeurs médianes, le bleu est la moyenne et les lignes rouges verticales montrent les barres d'erreur. Comme étape finale, j'ai utilisé geom_smoothpour ajuster une ligne en utilisant le lissage linéaire, donc j'ai utilisé method="lm". Parallèlement à la ligne, une teinte terne a également été générée autour de la ligne. Alors que j'ai compris comment le supprimer de la documentation, l'option que j'ai utilisée pour le désactiver est:

se: display confidence interval around smooth? 

Quelqu'un peut-il me dire ce que je suis censé comprendre à l'ombre autour de la ligne? Plus précisément, j'essaie de comprendre comment l'interpréter. Ce doit être une certaine qualité d'ajustement pour la ligne peut-être, mais toute information supplémentaire pourrait me être très utile. Aucune suggestion?

entrez la description de l'image ici

Légende
la source

Réponses:

6

Je soupçonne que cela signifie très peu dans votre chiffre réel; vous avez dessiné une forme de stripplot / chart. Mais comme nous n'avons pas les données ou l'exemple reproductible, je vais simplement décrire ce que ces lignes / régions montrent en général.

En général, la ligne est le modèle linéaire ajusté décrivant la relation La bande ombrée est un intervalle de confiance ponctuel de 95% sur les valeurs ajustées (la ligne ). Cet intervalle de confiance contient la vraie ligne de régression de la population avec une probabilité de 0,95. Ou, en d'autres termes, il y a une confiance de 95% que la vraie ligne de régression se trouve dans la région ombrée. Il nous montre l'incertitude inhérente à notre estimation de la véritable relation entre votre réponse et la variable prédictive.

vunel^=β0+β1Num
Gavin Simpson
la source
Merci pour votre réponse et votre temps. Je vais passer un peu de temps à comprendre votre premier commentaire sur la raison pour laquelle cela signifie peu dans mon graphique. Au lieu de dessiner un diagramme à barres avec la moyenne, j'ai dessiné un diagramme à bandes pour avoir un aperçu du nombre de points également utilisés. Mais corrigez-moi si je me trompe. Ma dernière question serait de savoir s'il existe une relation entre cet intervalle de confiance à 95% et l'intervalle de confiance à 95% indiqué par les barres d'erreur. Plus précisément, qu'est-ce que cela signifie pour la ligne ajustée d'être au-dessus ou en dessous des barres d'erreur? Ou sont-ils totalement indépendants et doivent être interprétés séparément?
Legend
Si la variable x est catégorique, il peut ne pas être logique de la traiter comme un degré de liberté de 1 degré, terme linéaire, ce qui correspond à la façon dont elle a été traitée dans le calcul de la droite ajustée. De plus, vos données ne semblent pas présenter l'hypothèse de variance constante pour les résidus du modèle. Le diagramme n'est pas la question, c'est de savoir si la régression de ces données a du sens. La ligne ajustée sera proche (ou peut-être même, quelqu'un peut me corriger) de la ligne la mieux ajustée par les moyens du groupe.
Gavin Simpson
Merci beaucoup pour votre perspicacité. Je vais en lire plus sur l'hypothèse de variance constante pour les résidus.
Legend
2
Hmmm. Je ne suis pas complètement sûr que votre explication soit correcte - la valeur par défaut est de tracer un intervalle de confiance de 95% point par point . Je ne pense pas que ce soit la même chose que de dire qu'il y a 95% de chances que la vraie ligne de régression se trouve dans la région ombrée.
hadley
@hadley gifle la tête oui, ce serait un intervalle de confiance simultané. Mettra à jour.
Gavin Simpson