La ligne du meilleur ajustement du «bon sens» apparaîtrait comme une ligne presque verticale au centre des points (modifiée à la main en rouge). Cependant, la ligne de tendance linéaire décidée par Excel est la ligne noire diagonale indiquée.
- Pourquoi Excel a-t-il produit quelque chose qui (à l'œil humain) semble être faux?
- Comment puis-je produire une ligne de meilleur ajustement qui semble un peu plus intuitive (c'est-à-dire quelque chose comme la ligne rouge)?
Mise à jour 1. Une feuille de calcul Excel avec données et graphique est disponible ici: exemple de données , CSV dans Pastebin . Les techniques de régression type1 et type2 sont-elles disponibles en tant que fonctions Excel?
Mise à jour 2. Les données représentent un parapente grimpant dans une thermique tout en dérivant avec le vent. L'objectif final est d'étudier comment la force et la direction du vent varient avec l'altitude. Je suis un ingénieur, PAS un mathématicien ou un statisticien, donc les informations contenues dans ces réponses m'ont donné beaucoup plus de domaines de recherche.
la source
Réponses:
Y a-t-il une variable dépendante?
La courbe de tendance dans Excel provient de la régression de la variable dépendante "lat" sur la variable indépendante "lon". Ce que vous appelez une "ligne de bon sens" peut être obtenu si vous ne désignez pas de variable dépendante et si vous traitez la latitude et la longitude de manière égale. Ce dernier peut être obtenu en appliquant PCA . En particulier, c'est l'un des vecteurs propres de la matrice de covariance de ces variables. Vous pouvez y voir une ligne minimisant la distance la plus courte entre un point donné et une ligne, c'est-à-dire que vous tracez une perpendiculaire à une ligne et que vous minimisez la somme de celles-ci pour chaque observation.( xje, yje)
Voici comment vous pouvez le faire dans R:
Que vous souhaitiez traiter les variables de manière égale ou non dépend de l'objectif. Ce n'est pas la qualité inhérente des données. Vous devez choisir le bon outil statistique pour analyser les données, dans ce cas, choisissez entre la régression et la PCA.
Une réponse à une question qui n'a pas été posée
Alors, pourquoi dans votre cas, une ligne de tendance (de régression) dans Excel ne semble pas être un outil approprié pour votre cas? La raison en est que la courbe de tendance est une réponse à une question qui n’a pas été posée. Voici pourquoi.
Imaginez qu'il n'y ait pas de vent. Un parapentiste ferait le même cercle à plusieurs reprises. Quelle serait la ligne de tendance? Évidemment, ce serait une ligne horizontale plate, sa pente serait nulle, mais cela ne veut pas dire que le vent souffle dans la direction horizontale!
Code R pour la simulation:
La direction du vent n’est donc clairement pas alignée avec la ligne de tendance. Ils sont liés, bien sûr, mais de manière non triviale. Par conséquent, ma déclaration selon laquelle la courbe de tendance Excel est une réponse à une question, mais pas à celle que vous avez posée.
Pourquoi PCA?
Comme vous l'avez noté, le mouvement d'un parapente comporte au moins deux composantes: la dérive avec le vent et le mouvement circulaire contrôlé par un parapente. Ceci est clairement visible lorsque vous connectez les points sur votre tracé:
D'une part, le mouvement circulaire vous gêne vraiment: le vent vous intéresse. Par contre, vous n'observez pas la vitesse du vent, vous ne faites qu'observer le parapente. Votre objectif est donc de déduire le vent non observable de la lecture de la position de parapentiste observable. C'est exactement la situation où des outils tels que l'analyse factorielle et l'ACP peuvent être utiles.
L’ACP a pour objectif d’isoler quelques facteurs qui déterminent les résultats multiples en analysant les corrélations entre les produits. C’est efficace lorsque la sortie est liée aux facteurs de manière linéaire, ce qui est le cas dans vos données: la dérive du vent ajoute simplement les coordonnées du mouvement circulaire, c’est pourquoi PCA travaille ici.
Configuration PCA
Nous avons donc établi que l’APC devrait avoir une chance ici, mais comment allons-nous l’organiser? Commençons par ajouter une troisième variable, le temps. Nous allons attribuer les temps 1 à 123 à chaque observation 123, en supposant une fréquence d'échantillonnage constante. Voici à quoi ressemble le tracé 3D des données, révélant sa structure en spirale:
Le graphique suivant montre le centre imaginaire de rotation d'un parapente sous forme de cercles bruns. Vous pouvez voir comment il dérive sur le plan lat-lon avec le vent, alors que le parapente représenté avec un point bleu tourne autour de lui. Le temps est sur l'axe vertical. J'ai connecté le centre de rotation à l'emplacement correspondant d'un parapente ne montrant que les deux premiers cercles.
Le code R correspondant:
La dérive du centre de rotation du parapente est principalement causée par le vent. La trajectoire et la vitesse de la dérive sont corrélées à la direction et à la vitesse du vent, variables d'intérêt non observables. Voici à quoi ressemble la dérive lorsqu’elle est projetée sur un plan lat-lon:
Régression PCA
Nous avons donc constaté précédemment que la régression linéaire régulière ne semble pas très bien fonctionner ici. Nous avons également compris pourquoi: parce que cela ne reflète pas le processus sous-jacent, parce que le mouvement du parapentiste est hautement non linéaire. C'est une combinaison de mouvement circulaire et d'une dérive linéaire. Nous avons également évoqué le fait que dans cette situation, une analyse factorielle pourrait être utile. Voici un aperçu d’une approche possible pour modéliser ces données: la régression PCA . Mais d'abord je vais vous montrer la courbe ajustée de régression PCA :
Ceci a été obtenu comme suit. Exécutez PCA sur le jeu de données contenant la colonne supplémentaire t = 1: 123, comme indiqué précédemment. Vous obtenez trois composantes principales. Le premier est simplement t. La seconde correspond à la colonne lon, et la troisième à la dernière colonne.
C'est ça. Pour obtenir les valeurs ajustées, vous récupérez les données des composants ajustés en insérant la transposition de la matrice de rotation PCA dans les composants principaux prédits. Mon code R ci-dessus montre certaines parties de la procédure et le reste, vous pouvez le comprendre facilement.
Conclusion
Il est intéressant de voir à quel point la PCA et d’autres outils simples sont puissants en ce qui concerne les phénomènes physiques dans lesquels les processus sous-jacents sont stables et les entrées converties en sorties via des relations linéaires (ou linéarisées). Donc, dans notre cas, le mouvement circulaire est très non linéaire mais nous l’avons facilement linéarisé en utilisant des fonctions sinus / cosinus sur un paramètre de temps t. Mes parcelles ont été produites avec seulement quelques lignes de code R, comme vous l'avez vu.
Le modèle de régression doit refléter le processus sous-jacent, alors vous seul pouvez vous attendre à ce que ses paramètres soient significatifs. S'il s'agit d'un parapente dérivant dans le vent, un simple diagramme de dispersion, comme dans la question initiale, masque la structure temporelle du processus.
La régression Excel était également une analyse transversale, pour laquelle la régression linéaire fonctionne le mieux, alors que vos données sont un processus de série chronologique, dans lequel les observations sont ordonnées dans le temps. L'analyse des séries chronologiques doit être appliquée ici, et cela a été fait dans la régression PCA.
Notes sur une fonction
la source
La réponse est probablement liée à la manière dont vous jugez mentalement la distance à la droite de régression. La régression standard (type 1) minimise l'erreur au carré, l'erreur étant calculée en fonction de la distance verticale de la ligne .
Une régression de type 2 peut être plus analogue à votre jugement de la meilleure ligne. L'erreur au carré minimisée est la distance perpendiculaire à la ligne . Cette différence a plusieurs conséquences. L'un des plus importants est que si vous permutez les axes X et Y dans votre graphique et que vous modifiez la ligne, vous obtiendrez une relation différente entre les variables pour la régression de type 1. Pour la régression de type 2, la relation reste la même.
Mon impression est qu'il y a pas mal de débats sur les endroits où utiliser une régression de type 1 ou de type 2, et je suggère donc de lire attentivement les différences avant de décider laquelle appliquer. Une régression de type 1 est souvent recommandée dans les cas où l'un des axes est soit contrôlé expérimentalement, soit au moins mesuré avec beaucoup moins d'erreur que l'autre. Si ces conditions ne sont pas remplies, la régression de type 1 biaisera les pentes vers 0 et la régression de type 2 est donc recommandée. Cependant, avec un bruit suffisant dans les deux axes, la régression de type 2 tend apparemment à les biaiser vers 1. Warton et al. (2006) et Smith (2009) sont de bonnes sources pour comprendre le débat.
Notez également qu'il existe plusieurs méthodes subtilement différentes entrant dans la grande catégorie de régression de type 2 (axe principal, régression d'axe majeur réduit et régression d'axe majeur standard), et que la terminologie relative aux méthodes spécifiques est incohérente.
Warton, DI, IJ Wright, DS Falster et M. Westoby. 2006. Méthodes d'ajustement de ligne bivariées pour l'allométrie. Biol. Rev. 81: 259-291. doi: 10.1017 / S1464793106007007
Smith, RJ 2009. Sur l'utilisation et la mauvaise utilisation de l'axe principal réduit pour l'ajustement de ligne. Un m. J. Phys. Anthropol 140: 476-486. doi: 10.1002 / ajpa.21090
EDIT :
@ amoeba fait remarquer que ce que j'appelle la régression de type 2 ci-dessus est également appelée régression orthogonale; c'est peut-être le terme le plus approprié. Comme je l'ai dit plus haut, la terminologie utilisée dans ce domaine est incohérente, ce qui justifie des précautions supplémentaires.
la source
La question à laquelle Excel tente de répondre est la suivante: "En supposant que y soit dépendant de x, quelle ligne prédit y le mieux". La réponse est qu’en raison des énormes variations de y, aucune ligne ne peut être particulièrement performante, et ce que Excel affiche est ce que vous pouvez faire de mieux.
Si vous prenez votre ligne rouge proposée, et vous continuez jusqu'à ce x = -0,714 et x = -0,712, vous constaterez que ses valeurs sont ainsi, loin du tableau, et il est à une grande distance des valeurs y correspondantes .
La question à laquelle Excel répond est non pas "quelle ligne est la plus proche des points de données", mais "quelle est la meilleure ligne pour prédire les valeurs y à partir de x valeurs", et le fait correctement.
la source
Je ne veux rien ajouter aux autres réponses, mais je tiens à dire que vous avez été égaré par une mauvaise terminologie, en particulier le terme "ligne de meilleur ajustement" utilisé dans certains cours de statistiques.
Intuitivement, une "ligne de meilleur ajustement" ressemblerait à votre ligne rouge. Mais la ligne produite par Excel n'est pas une "ligne de meilleur ajustement"; ce n'est même pas essayer d'être. C'est une ligne qui répond à la question: étant donné la valeur de x, quelle est ma meilleure prédiction possible pour y? ou bien, quelle est la valeur y moyenne pour chaque valeur x?
Notez l'asymétrie ici entre x et y; utiliser le nom "line of best fit" masque ceci. Il en va de même pour l'utilisation de "courbe de tendance" par Excel.
Il est très bien expliqué au lien suivant:
https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm
Vous voudrez peut-être quelque chose de plus semblable à ce que l'on appelle "Type 2" dans la réponse ci-dessus ou "Ligne SD" sur la page du cours de statistiques de Berkeley.
la source
Une partie du problème optique provient des différentes échelles - si vous utilisez la même échelle sur les deux axes, elle aura déjà un aspect différent.
En d'autres termes, vous pouvez donner à la plupart de ces lignes de "meilleur ajustement" un aspect "non intuitif" en étalonnant l'échelle d'un axe.
la source
Quelques personnes ont noté que le problème était visuel: la mise à l'échelle graphique utilisée produisait des informations trompeuses. Plus précisément, la taille de "lon" est telle qu’elle apparaît comme une spirale serrée, ce qui suggère que la droite de régression donne un mauvais ajustement (une évaluation à laquelle je conviens, la ligne rouge que vous tracez fournirait des erreurs au carré plus faibles si ont été façonnés de la manière présentée).
Ci-dessous, je fournis un diagramme de dispersion créé dans Excel avec une mise à l'échelle modifiée pour "lon", de sorte à ne pas produire la spirale serrée dans votre diagramme de dispersion. Avec ce changement, la ligne de régression fournit désormais un meilleur ajustement visuel et je pense que cela aide à démontrer comment la mise à l'échelle dans le diagramme de dispersion d'origine a fourni une évaluation trompeuse de l'ajustement.
Je pense que la régression fonctionne bien ici. Je ne pense pas qu'une analyse plus complexe est nécessaire.
Pour tous les intéressés, j'ai tracé les données à l'aide d'un outil de cartographie et montrer la régression ajustée aux données. Les points rouges sont les données enregistrées et le vert est la ligne de régression.
Et voici les mêmes données dans un nuage de points avec la droite de régression; ici lat est traité en tant que personne dépendante et les scores de lat sont inversés pour s’adapter au profil géographique.
la source
Votre régression des moindres carrés ordinaires confus (qui minimise la somme de l’écart au carré autour des valeurs prédites (observé-prédit) ^ 2) et de la régression de l’axe principal (qui minimise la somme des carrés de la distance perpendiculaire entre chaque point et la droite de régression, on parle parfois de régression de type II, de régression orthogonale ou de régression normalisée en composantes principales).
Si vous voulez comparer les deux approches juste en R, jetez un œil à
Ce que vous trouvez le plus intuitif (votre ligne rouge) n’est que la régression sur l’axe principal. Visuellement, c’est bien celle qui semble la plus logique, car elle minimise la distance perpendiculaire à vos points. La régression OLS ne semblera minimiser la distance perpendiculaire à vos points que si les variables x et y sont sur la même échelle de mesure et / ou ont le même niveau d'erreur (vous pouvez le voir simplement sur la base du théorème de Pythagore). Dans votre cas, votre variable y est beaucoup plus étendue, d'où la différence ...
la source
La réponse PCA est la meilleure parce que je pense que c’est ce que vous devriez faire compte tenu de la description de votre problème, bien que la réponse PCA puisse confondre PCA et la régression, qui sont des choses totalement différentes. Si vous souhaitez extrapoler cet ensemble de données particulier, vous devez effectuer une régression et probablement effectuer une régression de Deming (qui, je suppose, est parfois associée à un type II, n'ayant jamais entendu parler de cette description). Toutefois, si vous souhaitez connaître les directions les plus importantes (vecteurs propres) et disposer d'une mesure de leur impact relatif sur l'ensemble de données (valeurs propres), la méthode PCA est la bonne approche.
la source