Quelle est la bonne façon de mesurer la «linéarité» d'un ensemble de données?

8

J'ai un ensemble de données recueillies empiriquement qui relie deux variables. Sur une petite plage, la relation semble linéaire, mais sur une plus grande plage, il existe clairement une relation polynomiale de second ordre comme on peut le voir sur l'image à http://imgur.com/W7f9p .

J'essaie d'obtenir une mesure de linéarité pour différentes gammes considérées. Par exemple, à 20 <x <60 ou 100 <x <120, il est très linéaire, mais à 20 <x <180, il n'est pas très linéaire. J'ai essayé d'ajuster une ligne droite aux données et de calculer les données R ^ 2 (qualité de l'ajustement), mais cela montre que la ligne droite sur la plage la plus large a un meilleur ajustement que sur la plage plus petite. Bien que cela puisse être vrai avec MS Excel, à partir de l'image, il est clair que la plus grande plage est moins linéaire ... si vous tenez le côté d'un morceau de papier contre les points.

Existe-t-il une meilleure façon de mesurer la "linéarité" d'un ensemble de données?

user714852
la source
Cette question devrait probablement (et sera probablement) migrée vers le site de statistiques. Il existe une tonne de super logiciels de statistiques gratuitement. Vous pouvez rechercher le programme R et l'essayer.
Cet article pourrait vous intéresser ncbi.nlm.nih.gov/pubmed/16724492 L'idée est de monter un modèle linéaire par morceaux et de tester l'égalité des pentes (je ne commente plus car je ne l'ai pas lu)
Stéphane Laurent
2
Êtes-vous vraiment intéressé par la linéarité des données ou par la linéarité de la courbe sous-jacente ? La distinction est que, comme les données (peuvent) échantillonner la courbe de manière inégale, une mesure basée sur les données varierait selon la nature de l'échantillonnage, tandis qu'une estimation de la linéarité de la courbe serait plus stable en cas de changement de programme d'échantillonnage. Aussi, concevez-vous la "linéarité" comme une propriété absolue (et donc dépendante des unités de mesure) ou est-ce une propriété de la forme de la courbe (et donc invariante sous les transformations affines de x et y)?
whuber

Réponses:

6

Ajustez une fonction quadratique au lieu d'une fonction linéaire. La valeur absolue de l'estimation du coefficient le plus élevé du quadratique sert de mesure sensible de la linéarité, qui est nulle si les données se trouvent exactement sur une ligne. De plus, si les données proviennent d'un modèle linéaire avec bruit gaussien, le théorème de Gauss-Markov garantit que les estimations de coefficient ne sont pas biaisées, donc sous répétition de l'ajustement avec plusieurs données de la même distribution de modèle, la valeur attendue du coefficient sera zéro.

Bien sûr, dans un seul ajustement, on n'obtient généralement pas zéro, il faudrait donc utiliser un test pour la signification des coefficients.

Arnold Neumaier
la source
pourriez-vous expliquer un peu pourquoi il sert de mesure sensible de la linéarité?
Lucas Reis
1
@LucasReis: J'ai ajouté une justification.
Arnold Neumaier
(+1) Il me semble que toute mesure raisonnable de la "linéarité" devrait être invariante sous les changements de localisation et d'échelle (dans les variables dépendantes et indépendantes). Cela exclut l'utilisation du terme quadratique, mais suggère qu'il pourrait être utile d'envisager d'utiliser le terme quadratique lorsque des variables normalisées sont utilisées dans la régression. Notez, cependant, que le terme quadratique ne capturera pas les écarts complexes par rapport à la linéarité, comme un motif ondulé.
whuber
@whuber: bon point. La réponse de Michael Chernick a cette propriété et doit donc être préférée à la mienne.
Arnold Neumaier
En fait, je préfère votre solution telle que modifiée par @Douglas Maynard (qui, en utilisant des bêtas, obtient un résultat invariant). Moi aussi, j'ai d'abord aimé la réponse de Chernick, mais quand je l'ai examinée plus en profondeur, elle semblait manquer à certains égards clés. L'une est qu'elle dépend fortement de l'échantillonnage. Par exemple, un échantillonnage intensif à des valeurs extrêmes de entraîneraà sans modifier la courbure globale. Un autre est qu'il caractérise mal les lignes horizontales, qui sont parfaitement linéaires mais pour lesquelles ! Le terme quadratique, en revanche, résiste à de tels changements capricieux. x|ρ|1|rho|0
whuber
4

Une façon de procéder serait d'exécuter une régression hiérarchique avec votre variable d'axe Y comme résultat / critère. À l'étape / bloc 1, vous entrez votre variable X comme prédicteur, et à l'étape / bloc 2, entrez un terme de produit (X au carré ou multiplié par rapport à lui-même). Le terme au carré X représente votre composante quadratique. Les poids de régression normalisés (bêtas) pour X et X au carré vous donneraient une idée de la «force» des composantes linéaires et quadratiques les unes par rapport aux autres, et du changement du R au carré de l'étape / bloc 1 à l'étape / bloc 2 indique à quel point le modèle s'adapte mieux aux données lorsque vous avez ajouté le composant quadratique.

Voir Ch. 8 dans Keith, TZ (2005). Régression multiple et au-delà. Allyn & Bacon. 978-0205326440

Douglas Maynard
la source
1

La meilleure mesure de la linéarité entre deux variables x et y est le coefficient de corrélation du moment du produit Pearson. Plus il est proche de 1 en valeur absolue, plus l'ajustement est proche d'une ligne droite parfaite. Maintenant, si vous pensez qu'il y a une bonne linéarité dans une sous-région, calculez la corrélation uniquement pour ces paires dans la sous-région. S'il y a un changement de forme en dehors de cette région, il devrait apparaître dans une baisse de la corrélation lorsque toutes les données sont incluses.

Michael R. Chernick
la source
(+1) en.wikipedia.org/wiki/… explique la notion.
Arnold Neumaier
0

Les outils statistiques standard sont le coefficient de corrélation (voir la réponse de Michael Chernick) qui est une valeur entre [-1,1] et est indépendant de l'unité. La covariance est liée au coefficient de corrélation. La covariance est affectée par les unités mais peut être plus facile à interpréter. Cependant, je n'aime aucune de ces options dans le cas général. Je ne les aime pas car ils ne sont pas indépendants de la transformation conforme. Considérez qu'une ligne droite horizontale ou verticale est considérée comme non linéaire par ces deux mesures.

Une meilleure option sans unité consiste à utiliser une décomposition en valeurs singulières (SVD). Le SVD décompose les données en éléments classés par ordre d'importance de leur contribution à l'ensemble. Le rapport du plus grand nombre singulier au deuxième plus grand nombre singulier est donc une métrique de linéarité. Notez que pour utiliser cette méthode, vous devez d'abord centraliser les données (rendre les coordonnées moyennes X, Y, Z, etc. égales à zéro).

Exemple: Pts: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;

Pts centralisés: 9,792639127 0,656480018; -0,340591673 -1,68817349; -4,519928343 -1,801499913; -4,932119113 2,833193384;

SVD, matrice D: 11.86500017 0; 0 3.813448344

Rapport des valeurs singulières 3.111357

Le rapport ci-dessus peut être interprété grossièrement comme les données étant trois fois plus longues dans la direction de la ligne la mieux ajustée que transversales.

Pour une solution avec des unités qui a des unités et ne nécessite pas de SVD. Faites un ajustement de ligne dont le centre de la ligne est l'un des paramètres. L'utilisation des données centralisées ci-dessus est simple: ligne pt = 0 0 (toujours le cas pour les données centralisées) direction de la ligne = -0,999956849 -0,009289783

Les vecteurs du centre de la ligne à chaque point sont les coordonnées centralisées des points. Trouvez les longueurs de la projection de ces vecteurs sur la ligne (valeur absolue du vecteur point la direction de la ligne), et la longueur de la composante vectorielle perpendiculaire (longueur de la direction transversale du vecteur). Longueur parallèle, longueur perpendiculaire 9.798315123, 0.565480194; 0,356259742, 1,684936621; 4,536468847, 1,759433021; 4,905586534, 2,878889448;

Le maximum de projections parallèles est l'étirement des données le long de la ligne. La longueur maximale de la projection perpendiculaire est une mesure de la non-linéarité. Le rapport des deux est une approximation du rapport des valeurs singulières ci-dessus.

Notes 1. L'invariance affine de la linéarité n'est pas possible. Considérez que, dans une transformation affine, nous pourrions mettre à l'échelle tous les axes de coordonnées, sauf un, près de zéro (ce qui rend tout ensemble de points linéaire). L'invariance conforme est donc la meilleure chose que nous puissions faire. 2. Ces méthodes NE SONT PAS ROBUSTES pour les données aberrantes. 3. Les exemples sont 2D mais généralisés à N dimensions.

Orrin Thomas
la source
Je pense que vous vouliez dire que r est dans [-1,1] pas [0,1]
mdewey