Différence entre l'analyse de régression et l'ajustement de courbe

17

Quelqu'un peut-il m'expliquer la ou les réelles différences entre l'analyse de régression et l'ajustement de courbe (linéaire et non linéaire), avec un exemple si possible?

Il semble que les deux tentent de trouver une relation entre deux variables (dépendantes ou indépendantes) puis déterminent le paramètre (ou coefficient) associé aux modèles proposés. Par exemple, si j'ai un ensemble de données comme:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

Quelqu'un peut-il suggérer une formule de corrélation entre ces deux variables? J'ai du mal à comprendre la différence entre ces deux approches. Si vous préférez étayer votre réponse avec d'autres ensembles de données, c'est OK car celui-ci semble difficile à adapter (peut-être seulement pour moi).

L'ensemble de données ci-dessus représente les axes et d'une courbe de caractéristique de fonctionnement du récepteur (ROC), où est le vrai taux positif (TPR) et est le taux de faux positifs (FPR).xyyx

J'essaie d'ajuster une courbe, ou de faire une analyse de régression selon ma question d'origine, pas encore sûr, parmi ces points pour estimer le TPR pour un FPR particulier (ou vice-versa).

Premièrement, est-il scientifiquement acceptable de trouver une telle fonction d'ajustement de courbe entre deux variables indépendantes (TPR et FPR)?

Deuxièmement, est-il scientifiquement acceptable de trouver une telle fonction si je sais que les distributions des cas réels négatifs et réels ne sont pas normales?

Ali Sultan
la source
1
Les termes sont (malheureusement) utilisés différemment par différentes personnes et dans différents contextes. Pouvez-vous créer un lien vers / fournir un exemple où les gens les distinguent?
gung - Rétablir Monica
C'est ce que j'essaie de comprendre, en quoi ils sont différents et comment je peux les distinguer.
Ali Sultan
1
D'accord, mais quelqu'un vous a-t-il dit qu'ils étaient censés être différents?
gung - Rétablir Monica
2
Sur ce site, certaines personnes ont utilisé "l'ajustement de courbe" dans des sens qui ne peuvent pas être considérés comme une régression. Par exemple, certains d'entre eux considèrent l'estimation d'une densité comme une forme d '«ajustement de courbe» à un histogramme.
whuber

Réponses:

22

Je doute qu'il y ait une distinction claire et cohérente entre les sciences et les domaines à l'esprit statistique entre la régression et l' ajustement de courbe .

La régression sans qualification implique une régression linéaire et une estimation des moindres carrés. Cela n'exclut pas d'autres sens ou des sens plus larges: en effet, une fois que vous autorisez logit, Poisson, régression binomiale négative, etc., etc., il devient plus difficile de voir quelle modélisation n'est pas une régression dans un certain sens.

L'ajustement de courbe suggère littéralement une courbe qui peut être dessinée sur un plan ou au moins dans un espace de faible dimension. La régression n'est pas si limitée et peut prédire des surfaces dans un espace à plusieurs dimensions.

L'ajustement de courbe peut utiliser ou non une régression linéaire et / ou des moindres carrés. Cela peut se référer à l'ajustement d'un polynôme (série de puissance) ou d'un ensemble de termes sinus et cosinus ou d'une autre manière, en fait, être qualifié de régression linéaire dans le sens clé de l'ajustement d'une forme fonctionnelle linéaire dans les paramètres. En effet, l'ajustement de courbe lorsque la régression non linéaire est également une régression.

Le terme ajustement de courbe pourrait être utilisé dans un sens dénigrant, désobligeant, dépréciatif ou dédaigneux ("c'est juste un ajustement de courbe!") Ou (presque l'opposé complet) il pourrait se référer à l'ajustement d'une courbe spécifique soigneusement choisie avec un physique spécifique (biologique, économique, quelle que soit la raison) ou adaptée pour correspondre à des types particuliers de comportement initial ou limitatif (par exemple, être toujours positif, limité dans une ou deux directions, monotone, avec une inflexion, avec un seul point de rotation, oscillatoire, etc.).

L'une des nombreuses questions floues ici est que la même forme fonctionnelle peut être au mieux empirique dans certaines circonstances et excellente théorie dans d'autres. Newton a enseigné que les trajectoires des projectiles peuvent être paraboliques, et donc naturellement ajustées par les quadratiques, alors qu'un quadratique adapté à la dépendance à l'âge dans les sciences sociales n'est souvent qu'un fudge qui correspond à une courbure dans les données. La décroissance exponentielle est une très bonne approximation des isotopes radioactifs et une estimation parfois pas trop folle de la façon dont la valeur des terres diminue avec la distance d'un centre.

Votre exemple n'obtient aucune supposition explicite de ma part. Une grande partie du point ici est qu'avec un très petit ensemble de données et précisément aucune information sur ce que sont les variables ou comment elles devraient se comporter, il pourrait être irresponsable ou insensé de suggérer une forme de modèle. Peut-être que les données devraient augmenter fortement à partir de (0, 0) puis approcher (1, 1), ou peut-être autre chose. Tu nous as dit!

Remarque. Ni la régression ni l'ajustement de courbe ne se limitent à des prédicteurs uniques ou à des paramètres uniques (coefficients).

Nick Cox
la source
2
"Curve-fiting" me connote quelque chose de théorique (par exemple, lowess). Les économistes se moquent parfois de l'ajustement d'une fonction théorique comme de la représentation graphique, ce qui ressemble à certains usages de l'ajustement de courbe. Je pense qu'il (par exemple lowess) a à la fois des avantages et des inconvénients, lorsqu'il est bien compris. Il est difficile de savoir comment quelqu'un entendait les termes sans plus de contexte, cependant.
gung - Rétablir Monica
1
@gung Je pense qu'il y a une utilisation similaire joculaire, partiellement sérieuse dans plusieurs sciences naturelles (et non naturelles). L'un des problèmes est qu'avec suffisamment de paramètres, vous avez nécessairement beaucoup de marge de manœuvre. Je me souviens des modèles de séries chronologiques qui permettent non seulement ARIMA, mais aussi des termes et des étapes sinusoïdales, des rampes et des pointes partout où les données le suggèrent.
Nick Cox
Je seconde @gung, l'ajustement de courbe a une connotation plus non paramétrique, du moins pour moi.
Christoph Hanck
1
@ChristophHanck S'il vous plaît ne pas apporter "non paramétrique" dans cela! La discussion est déjà assez boueuse!
Nick Cox
1
@gung: En pensant au lissage des splines et aux méthodes RKHS en général comme l'épine dorsale de l'ajustement de courbe, par exemple, je pense que l'ajustement de courbe est beaucoup plus théorique que la régression. (+1 à NickCox pour cette réponse)
usεr11852 dit Réintégrer Monic
8

En plus de l'excellente réponse de @ NickCox (+1), je voulais partager mon impression subjective sur ce sujet de terminologie quelque peu floue . Je pense qu'une différence assez subtile entre les deux termes réside dans ce qui suit. D'une part, la régression implique souvent, sinon toujours, une solution analytique (la référence aux régresseurs implique de déterminer leurs paramètres , d'où mon argument sur la solution analytique). D'un autre côté, l' ajustement de courbe n'implique pas nécessairement la production d'une solution analytique et à mon humble avis, il pourrait souvent l'être et est utilisé comme approche exploratoire .

Aleksandr Blekh
la source
2
Ne peut-on pas utiliser quelque chose avec une solution analytique pour des raisons exploratoires aussi? Je ne pense pas avoir l'opposition que vous faites.
amibe dit Réintégrer Monica
@amoeba: Les solutions analytiques peuvent également être utilisées pour la recherche exploratoire. Cependant, ce que je veux dire concerne l' essence implicite la plus populaire des termes en question.
Aleksandr Blekh