Quelles sont les idées fausses les plus courantes sur la régression linéaire?

70

Je suis curieux de savoir, pour ceux d'entre vous qui ont une vaste expérience de la collaboration avec d'autres chercheurs, quelles sont les idées fausses les plus courantes sur la régression linéaire que vous rencontrez?

Je pense qu’il peut être utile de penser à l’avance aux idées fausses courantes afin de

  1. Anticiper les erreurs des gens et être capable de bien expliquer pourquoi une idée fausse est incorrecte

  2. Rends-toi compte si je garde moi-même des idées fausses!

Quelques notions de base auxquelles je peux penser:

Les variables indépendantes / dépendantes doivent être distribuées normalement

Les variables doivent être normalisées pour une interprétation précise

D'autres?

Toutes les réponses sont les bienvenues.

ST21
la source
5
Cela devrait probablement être fait en CW, car cela invite à une liste de possibilités et il sera difficile de dire qu'on est objectivement la "bonne réponse".
Gay - Rétablir Monica
Je connais beaucoup de personnes qui insistent toujours pour effectuer des linéarisations sur leurs données et en rester là, même lorsque l'environnement informatique qu'elles utilisent supporte bien la régression non linéaire. (Les linéarisations sont bien sûr utiles comme points de départ pour les ajustements non linéaires, mais ces personnes ne le réalisent même pas.)
JM n'est pas un statisticien
1
@gung: Le wiki de communauté est-il toujours une chose? Principalement dépréciée sur l'ensemble du réseau , CW n'a jamais vraiment cherché à fournir des questions marginales et volumineuses à la grande liste, à sortir de la carte sans prison, ni à porter atteinte à la réputation de personnes qu'ils auraient autrement gagnées si la question avait été au premier plan. La seule façon de poser une question est de demander à un modérateur de le faire.
Robert Harvey
1
Si Dieu avait rendu le monde linéaire, il n'y aurait pas de régression non linéaire.
Mark L. Stone
1
@RobertHarvey: Oui, il est encore très bien une chose sur CrossValidated (à mon avis, malheureusement). Nous avons eu des discussions houleuses sur la méta à ce sujet ( par exemple celle-ci ), mais le statu quo actuel est que le statut de CW est appliqué sur toutes les questions basées sur les opinions ou les grandes listes qui sont considérées suffisamment sur le sujet pour rester ouvertes.
Amibe dit de réintégrer Monica

Réponses:

38

Faux principe: Un signifie qu'il n'y a pas de relation forte entre DV et IV. β^0
Les relations fonctionnelles non linéaires abondent, et pourtant les données produites par beaucoup de ces relations produisent souvent des pentes presque nulles si on suppose que la relation doit être linéaire, voire approximativement linéaire.

Parallèlement, dans une autre fausse prémisse, les chercheurs supposent souvent, peut-être parce que de nombreux manuels d'introduction à la régression enseignent, qu'il est possible de "tester la non-linéarité" en construisant une série de régressions de DV sur des développements polynomiaux de l'IV (par exemple, , suivi de , suivi parYβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε, etc.). Tout comme une ligne droite ne peut pas bien représenter une relation fonctionnelle non linéaire entre DV et IV, une parabole ne peut pas bien représenter littéralement un nombre infini de relations non linéaires (par exemple, des sinusoïdes, des cycloïdes, des fonctions d'échelon, des effets de saturation, des courbes en S, etc., ad infinitum ). On peut plutôt opter pour une approche de régression qui n’assume aucune forme fonctionnelle particulière (par exemple, un lisseur de lignes en cours d’exécution, des GAM, etc.).

Une troisième fausse prémisse est que l’augmentation du nombre de paramètres estimés entraîne nécessairement une perte de puissance statistique. Cela peut être faux quand la vraie relation est non linéaire et nécessite plusieurs paramètres pour estimer (par exemple , une fonction « bâton cassé » exige non seulement l' interception et la pente des termes d'une ligne droite, mais exige point où les changements de pente et combien changements de pente par estimations également): les résidus d'un modèle mal spécifié (une ligne droite, par exemple) peuvent devenir assez volumineux (par rapport à une relation fonctionnelle correctement spécifiée), ce qui se traduit par une probabilité de rejet plus faible, des intervalles de confiance et des intervalles de prédiction plus larges (en plus des estimations biaisées) .

Alexis
la source
4
(+1) Petits mots: (1) Je ne pense pas que même les textes d'introduction impliquent que toutes les courbes sont des fonctions polynomiales, mais plutôt qu'elles peuvent être approchées assez bien sur une plage donnée par des fonctions polynomiales. Elles tombent donc dans la classe des "approches de régression qui n'assument aucune forme fonctionnelle particulière", régies par un "hyperparamètre" spécifiant le wiggliness: la durée pour loess, le no. noeuds pour la régression sur une base spline, le degré de régression sur une base polynomiale. (Je ne brandis pas un drapeau pour les polynômes - il est bien connu qu'ils ont tendance à
s'agiter plus loin
2
... en leur donnant juste ce qui leur est dû.) (2) Une sinusoïde pourrait bien être adaptée en tant que telle, dans le cadre du modèle linéaire; un effet de saturation utilisant un modèle non linéaire (une hyperbole rectangulaire, par exemple); & c. Bien sûr, vous n'avez pas dit le contraire, mais il est peut-être utile de souligner que si vous savez qu'il existe un cycle ou une asymptote, l'application de ces contraintes dans votre modèle sera utile.
Scortchi - Réintégrer Monica
2
@ Scortchi, je suis tout à fait d'accord! (En effet, étant donné un nombre infini de polynômes, toute fonction peut être parfaitement représentée.) Visait à être concis. :)
Alexis
2
@Alexis Essayez d'approcher la fonction de base 13 de Conway à l'aide de polynômes. :)
Le secret de Solomonoff le
1
Ou ...χQ
S. Kolassa - Réintégrer Monica
22

Il est très courant de supposer que seules données sont sujettes à une erreur de mesure (ou du moins qu’il s’agit de la seule erreur que nous considérerons). Mais cela ignore la possibilité - et les conséquences - d'erreur dans les mesures . Cela pourrait être particulièrement aigu dans les études d'observation où les variables ne sont pas sous contrôle expérimental.yxx

La dilution ou l'atténuation de la régression est le phénomène reconnu par Spearman (1904) selon lequel la pente de régression estimée dans la régression linéaire simple est biaisée vers zéro par la présence d'une erreur de mesure dans la variable indépendante. Supposons que la pente vraie soit positive - l’effet de faire trembler lescoordonnéesdes points(peut-être plus facilement visualisé comme «maculer» les points horizontalement) consiste à rendre la ligne de régression moins raide. Intuitivement, les points avec un grandsont maintenant plus susceptibles de l'être en raison d'une erreur de mesure positive, tandis que lavaleurest plus susceptible de refléter la valeur réelle (sans erreur) de, et est donc inférieure à la ligne vraie. pour l'observéxxyxx .

Dans des modèles plus complexes, l'erreur de mesure dans les variables peut produire des effets plus complexes sur les estimations de paramètres. Il existe des erreurs dans les modèles de variables qui prennent en compte une telle erreur. Spearman a suggéré un facteur de correction pour les coefficients de corrélation bivariés atténuants et d'autres facteurs de correction ont été développés pour des situations plus complexes. Cependant, de telles corrections peuvent être difficiles - en particulier dans le cas multivarié et en présence de facteurs de confusion - et il peut être controversé de savoir si la correction constitue une amélioration réelle, voir par exemple Smith et Phillips (1996).x

Donc, je suppose que ce sont deux idées fausses pour le prix d'un - d'un côté, c'est une erreur de penser que la façon dont nous écrivons signifie "toute l'erreur est dans le " et ignorer le même possibilité physiquement réelle d'erreurs de mesure dans les variables indépendantes. D'autre part, il peut être déconseillé d'appliquer à l'aveugle des "corrections" pour erreur de mesure dans toutes les situations telles qu'une réponse instinctive (bien que cela puisse être une bonne idée de prendre des mesures pour réduire l'erreur de mesure en premier lieu). .y=Xβ+εy

(Je devrais probablement également un lien vers d'autres modèles communs erreur dans les variables, afin de plus en plus générale: la régression orthogonale , la régression Deming , et le total des moindres carrés .)

Références

3 tours
la source
Sur cette note: c’est une des raisons de l’utilisation de la technique appelée "total des moindres carrés" ou "régression orthogonale" (selon la référence que vous lisez); c'est beaucoup plus compliqué que les moindres carrés, mais cela vaut la peine si tous vos points sont contaminés par des erreurs.
JM n'est pas un statisticien
@JM Merci - oui, en fait, je voulais à l'origine créer un lien vers TLS, mais j'ai été distrait par l'article de Smith et Phillips!
Silverfish
2
+1 Excellent ajout à ce sujet. J'ai souvent considéré les modèles EIV dans mon travail. Cependant, outre leur complexité et leur dépendance vis-à-vis de la connaissance des "taux d'erreur", il convient de prendre en compte un problème plus conceptuel: de nombreuses régressions, notamment dans l'apprentissage supervisé ou les prédictions, veulent relier les prédicteurs observés aux résultats observés . Modèles EIV, d'autre part, tenter d'identifier la relation sous - jacente entre la moyenne prédicteur et dire la réponse ... une question légèrement différente.
2
Donc, ce que l’on appelle la "dilution" de la "vraie" régression (dans un contexte scientifique) s’appelle "absence d’utilité prédictive" ou quelque chose du genre dans un contexte de prédiction.
21

Certains malentendus standard qui s'appliquent dans ce contexte ainsi que dans d'autres contextes statistiques sont, par exemple, le sens des valeurs , la déduction erronée de la causalité, etc. p

À mon avis, certains malentendus sont spécifiques à la régression multiple:

  1. En pensant que la variable ayant le coefficient estimé le plus élevé et / ou la valeur plus basse est «plus importante». p
  2. Penser que l'ajout de plus de variables au modèle vous rapproche de la vérité. Par exemple, la pente d'une régression simple de sur peut ne pas être la vraie relation directe entre et , mais si j'ajoute les variables , ce coefficient sera une meilleure représentation de la vraie relation et si j'ajoute , ce sera encore mieux que cela. YXXYZ1,,Z5Z6,,Z20
gung - Rétablir Monica
la source
12
Bon produit. Cette réponse pourrait être encore plus utile si elle expliquait pourquoi les deux se trompent et que faire à la place?
DW
14

Je dirais que le premier que vous citez est probablement le plus commun - et peut-être le plus largement enseigné de cette façon - des choses qui sont clairement perçues comme étant fausses, mais voici quelques autres qui sont moins claires dans certaines situations ( s’ils s’appliquent vraiment) mais peuvent avoir un impact sur encore plus d’analyses et peut-être plus sérieusement. Celles-ci ne sont souvent tout simplement jamais mentionnées lorsque le sujet de la régression est introduit.

  • Traiter comme des échantillons aléatoires de la population d'intérêt des ensembles d'observations qui ne peuvent pas être proches de représentatives (et encore moins échantillonnées de manière aléatoire). [Certaines études pourraient plutôt être considérées comme plus proches des échantillons de commodité]

  • Avec des données d'observation, ignorer simplement les conséquences de la suppression de facteurs importants du processus, ce qui fausserait certainement les estimations des coefficients des variables incluses (dans de nombreux cas, même le risque de changer de signe), sans chercher à traiter les moyens avec eux (que ce soit par ignorance du problème ou simplement en ignorant que rien ne peut être fait). [Certains domaines de recherche ont ce problème plus que d'autres, que ce soit en raison du type de données collectées ou du fait que les personnes dans certains domaines d'application ont plus de chances d'avoir été informées du problème.]

  • Régression parasite (principalement avec des données collectées au fil du temps). [Même lorsque les gens sont conscients que cela se produit, il existe une autre idée fausse commune selon laquelle la simple différence de supposée stationnaire est suffisante pour éviter complètement le problème.]

Bien sûr, il y en a beaucoup d'autres que l'on pourrait mentionner (traiter comme des données indépendantes qui seront presque certainement corrélées en série ou même intégrées peut être à peu près aussi commun, par exemple).

Vous remarquerez peut-être que toutes les études d'observation de données collectées au fil du temps peuvent être affectées en même temps. Pourtant, ce type d'étude est très courant dans de nombreux domaines de recherche où la régression est un outil standard. Comment ils peuvent arriver à la publication sans qu'un seul critique ou un seul éditeur sache au moins un d'entre eux et exige au moins un certain degré de non-responsabilité dans les conclusions continue de m'inquiéter.

Les statistiques posent de nombreux problèmes de résultats impossibles à reproduire dans le cas d’expériences assez soigneusement contrôlées (combinées à des analyses peut-être moins minutieuses), de sorte que dès que l’on sort de ces limites, à quel point la situation de reproductibilité doit-elle être pire?

Glen_b
la source
6
Étroitement liée à certains de vos points pourrait être l'idée que « seules données sont sujettes à des erreurs de mesure » (ou au moins, «c'est la seule erreur que nous considérerons »). Je ne suis pas sûr que cela mérite qu'on s'y attarde, mais il est très courant d'ignorer la possibilité - et les conséquences - d'erreur aléatoire dans les variables . yx
Silverfish
2
@ Silverfish Je suis tout à fait d'accord avec vous.
Mark L. Stone
@Silverfish c'est CW, vous devriez donc vous sentir très libre de modifier un ajout approprié comme celui-là.
Glen_b
@Silverfish il y a une raison pour laquelle je ne l'ai pas déjà ajouté moi-même quand vous l'avez mentionné ... Je pense que cela vaut probablement une nouvelle réponse
Glen_b
12

Je n’appellerais probablement pas ces idées fausses, mais peut-être des points communs de confusion / blocages et, dans certains cas, des problèmes que les chercheurs ne sont peut-être pas au courant.

  • Multicolinéarité (y compris le cas de plus de variables que de points de données)
  • L'hétéroscédasticité
  • Si les valeurs des variables indépendantes sont sujettes au bruit
  • Comment la mise à l'échelle (ou non) affecte l'interprétation des coefficients
  • Comment traiter les données de plusieurs sujets
  • Comment traiter les corrélations sérielles (par exemple, les séries chronologiques)

Du côté des idées fausses des choses:

  • Que signifie linéarité (par exemple, est non linéaire par rapport à , mais linéaire par rapport aux poids).y=ax2+bx+cx
  • Cette "régression" signifie les moindres carrés ordinaires ou une régression linéaire
  • Que les poids faibles / élevés impliquent nécessairement des relations faibles / fortes avec la variable dépendante
  • Cette dépendance entre les variables dépendantes et indépendantes peut nécessairement être réduite à des dépendances par paires.
  • Cette grande qualité d’ajustement sur le dispositif d’entraînement implique un bon modèle (c’est-à-dire négliger le surapprentissage).
utilisateur20160
la source
7

D'après mon expérience, les étudiants ont souvent tendance à penser que les erreurs au carré (ou la régression par les MCO) sont intrinsèquement appropriées, précises et globalement utiles, voire incompatibles. J'ai souvent vu OLS faire de la publicité avec des remarques indiquant qu'il "donnait plus de poids à des observations plus extrêmes / déviantes", et la plupart du temps il est au moins implicite qu'il s'agisse d'une propriété souhaitable. Cette notion peut être modifiée ultérieurement, lorsque le traitement des valeurs éloignées et des approches robustes sont introduits, mais à ce stade, le dommage est causé. On peut soutenir que l'utilisation généralisée des erreurs carrées est historiquement plus liée à leur commodité mathématique qu'à une loi naturelle du coût des erreurs dans le monde réel.

Globalement, on pourrait insister davantage sur la compréhension du fait que le choix de la fonction d'erreur est quelque peu arbitraire. Idéalement, tout choix de pénalité dans un algorithme devrait être guidé par la fonction de coût correspondante dans le monde réel associée à une erreur potentielle (c'est-à-dire en utilisant un cadre décisionnel). Pourquoi ne pas d'abord établir ce principe et ensuite voir à quel point nous pouvons le faire?

Benoît MJG
la source
2
Le choix dépend également de l'application. La méthode des moindres carrés est utile pour les ajustements algébriques en ordonnée, mais moins pour les applications géométriques, où les moindres carrés totaux (ou une autre fonction de coût basée sur la distance orthogonale) ont plus de sens.
Willie Wheeler
4

Une autre idée fausse commune est que le terme d'erreur (ou la perturbation dans le langage économétrique) et les résidus sont la même chose.

Le terme d'erreur est une variable aléatoire dans le modèle réel ou le processus de génération de données. On suppose souvent qu'il suit une certaine distribution, alors que les résidus sont les déviations des données observées par rapport au modèle ajusté. En tant que tels, les résidus peuvent être considérés comme des estimations des erreurs.

Robert Long
la source
Je parie que les gens seraient intéressés à expliquer pourquoi cela est important, ou dans quels types de cas.
rolando2
4

L'idée fausse la plus courante que je rencontre est que la régression linéaire suppose la normalité des erreurs. Ce n'est pas. La normalité est utile en relation avec certains aspects de la régression linéaire, par exemple les petites propriétés d'échantillon telles que les limites de confiance des coefficients. Même pour ces choses, il existe des valeurs asymptotiques disponibles pour les distributions non normales.

La deuxième cause la plus fréquente est une confusion relative à l'endogénéité, par exemple ne pas faire attention aux boucles de rétroaction. S'il y a une boucle de retour de Y à X, c'est un problème.

Aksakal
la source
4

Une erreur que j'ai faite est de supposer une symétrie de X et Y dans la MCO. Par exemple, si je suppose une relation linéaire avec a et b donnés par mon logiciel utilisant OLS, alors je pense que supposer que X en fonction de Y donnera à OLS les coefficients: c'est faux.

Y=aX+b
X=1aYba

Peut-être cela est-il également lié à la différence entre MCO et total des moindres carrés ou du premier composant principal.

Jf Parmentier
la source
3

Celle que j'ai souvent vue est une idée fausse sur l'applicabilité de la régression linéaire dans certains cas d'utilisation, dans la pratique.

Par exemple, disons que la variable qui nous intéresse est le compte de quelque chose (exemple: visiteurs sur le site Web) ou le ratio de quelque chose (exemple: les taux de conversion). Dans de tels cas, la variable peut être mieux modélisée en utilisant des fonctions de liaison telles que Poisson (comptes), Bêta (ratios), etc. Ainsi, l'utilisation d'un modèle généralisé avec une fonction de liaison plus appropriée convient mieux. Mais juste parce que la variable n’est pas catégorique, j’ai vu des gens commencer par une régression linéaire simple (fonction lien = identité). Même si nous ne tenons pas compte des implications en termes de précision, les hypothèses de modélisation posent problème.

hssay
la source
2

En voici une qui est souvent négligée par les chercheurs:

  • Interaction variable: les chercheurs se penchent souvent sur les bêta isolées de prédicteurs individuels et ne spécifient même pas les termes d'interaction. Mais dans le monde réel, les choses interagissent. Sans une spécification appropriée de tous les termes d'interaction possibles, vous ne savez pas comment vos "prédicteurs" se combinent pour former un résultat. Et si vous souhaitez faire preuve de diligence et spécifier toutes les interactions, le nombre de prédicteurs explose. D'après mes calculs, vous ne pouvez étudier que 4 variables et leurs interactions avec 100 sujets. Si vous ajoutez une autre variable, vous pouvez facilement sur-adapter.
utilisateur4534898
la source
0

Une autre idée fausse répandue est que les estimations (valeurs ajustées) ne sont pas invariantes aux transformations, par exemple:

y i = x T i ß

f(y^i)f(yi)^
en général, où , en fonction de la valeur de régression ajustée sur vos coefficients de régression estimés.y^i=xiTβ^

Si c’est ce que vous voulez pour les fonctions monotoniques pas nécessairement linéaire, alors vous voulez une régression quantile.f()

L'égalité ci-dessus est valable dans la régression linéaire pour les fonctions linéaires mais les fonctions non linéaires (par exemple, ), cela ne sera pas le cas. Cependant, cela sera valable pour toute fonction monotone dans la régression quantile.log()

Cela se produit tout le temps lorsque vous effectuez une transformation logarithmique de vos données, réglez une régression linéaire, puis augmentez la valeur ajustée et que les utilisateurs lisent cela comme une régression. Ce n'est pas la moyenne, c'est la médiane (si les choses sont vraiment log-normalement distribuées).

Lucas Roberts
la source