Je suis curieux de savoir, pour ceux d'entre vous qui ont une vaste expérience de la collaboration avec d'autres chercheurs, quelles sont les idées fausses les plus courantes sur la régression linéaire que vous rencontrez?
Je pense qu’il peut être utile de penser à l’avance aux idées fausses courantes afin de
Anticiper les erreurs des gens et être capable de bien expliquer pourquoi une idée fausse est incorrecte
Rends-toi compte si je garde moi-même des idées fausses!
Quelques notions de base auxquelles je peux penser:
Les variables indépendantes / dépendantes doivent être distribuées normalement
Les variables doivent être normalisées pour une interprétation précise
D'autres?
Toutes les réponses sont les bienvenues.
Réponses:
Faux principe: Un signifie qu'il n'y a pas de relation forte entre DV et IV.β^≈0
Les relations fonctionnelles non linéaires abondent, et pourtant les données produites par beaucoup de ces relations produisent souvent des pentes presque nulles si on suppose que la relation doit être linéaire, voire approximativement linéaire.
Parallèlement, dans une autre fausse prémisse, les chercheurs supposent souvent, peut-être parce que de nombreux manuels d'introduction à la régression enseignent, qu'il est possible de "tester la non-linéarité" en construisant une série de régressions de DV sur des développements polynomiaux de l'IV (par exemple, , suivi de , suivi parY∼β0+βXX+ε Y∼β0+βXX+βX2X2+ε Y∼β0+βXX+βX2X2+βX3X3+ε , etc.). Tout comme une ligne droite ne peut pas bien représenter une relation fonctionnelle non linéaire entre DV et IV, une parabole ne peut pas bien représenter littéralement un nombre infini de relations non linéaires (par exemple, des sinusoïdes, des cycloïdes, des fonctions d'échelon, des effets de saturation, des courbes en S, etc., ad infinitum ). On peut plutôt opter pour une approche de régression qui n’assume aucune forme fonctionnelle particulière (par exemple, un lisseur de lignes en cours d’exécution, des GAM, etc.).
Une troisième fausse prémisse est que l’augmentation du nombre de paramètres estimés entraîne nécessairement une perte de puissance statistique. Cela peut être faux quand la vraie relation est non linéaire et nécessite plusieurs paramètres pour estimer (par exemple , une fonction « bâton cassé » exige non seulement l' interception et la pente des termes d'une ligne droite, mais exige point où les changements de pente et combien changements de pente par estimations également): les résidus d'un modèle mal spécifié (une ligne droite, par exemple) peuvent devenir assez volumineux (par rapport à une relation fonctionnelle correctement spécifiée), ce qui se traduit par une probabilité de rejet plus faible, des intervalles de confiance et des intervalles de prédiction plus larges (en plus des estimations biaisées) .
la source
Il est très courant de supposer que seules données sont sujettes à une erreur de mesure (ou du moins qu’il s’agit de la seule erreur que nous considérerons). Mais cela ignore la possibilité - et les conséquences - d'erreur dans les mesures . Cela pourrait être particulièrement aigu dans les études d'observation où les variables ne sont pas sous contrôle expérimental.y x x
La dilution ou l'atténuation de la régression est le phénomène reconnu par Spearman (1904) selon lequel la pente de régression estimée dans la régression linéaire simple est biaisée vers zéro par la présence d'une erreur de mesure dans la variable indépendante. Supposons que la pente vraie soit positive - l’effet de faire trembler lescoordonnéesdes points(peut-être plus facilement visualisé comme «maculer» les points horizontalement) consiste à rendre la ligne de régression moins raide. Intuitivement, les points avec un grandsont maintenant plus susceptibles de l'être en raison d'une erreur de mesure positive, tandis que lavaleurest plus susceptible de refléter la valeur réelle (sans erreur) de, et est donc inférieure à la ligne vraie. pour l'observéx x y x x .
Dans des modèles plus complexes, l'erreur de mesure dans les variables peut produire des effets plus complexes sur les estimations de paramètres. Il existe des erreurs dans les modèles de variables qui prennent en compte une telle erreur. Spearman a suggéré un facteur de correction pour les coefficients de corrélation bivariés atténuants et d'autres facteurs de correction ont été développés pour des situations plus complexes. Cependant, de telles corrections peuvent être difficiles - en particulier dans le cas multivarié et en présence de facteurs de confusion - et il peut être controversé de savoir si la correction constitue une amélioration réelle, voir par exemple Smith et Phillips (1996).x
Donc, je suppose que ce sont deux idées fausses pour le prix d'un - d'un côté, c'est une erreur de penser que la façon dont nous écrivons signifie "toute l'erreur est dans le " et ignorer le même possibilité physiquement réelle d'erreurs de mesure dans les variables indépendantes. D'autre part, il peut être déconseillé d'appliquer à l'aveugle des "corrections" pour erreur de mesure dans toutes les situations telles qu'une réponse instinctive (bien que cela puisse être une bonne idée de prendre des mesures pour réduire l'erreur de mesure en premier lieu). .y=Xβ+ε y
(Je devrais probablement également un lien vers d'autres modèles communs erreur dans les variables, afin de plus en plus générale: la régression orthogonale , la régression Deming , et le total des moindres carrés .)
Références
Smith, GD et Phillips, AN (1996). " Inflation en épidémiologie:" la preuve et la mesure de l'association entre deux choses "revisitées ". British Medical Journal , 312 (7047), 1659-1661.
Spearman, C. (1904). "La preuve et la mesure de l'association entre deux choses." American Journal of Psychology 15 : 72-101.
la source
Certains malentendus standard qui s'appliquent dans ce contexte ainsi que dans d'autres contextes statistiques sont, par exemple, le sens des valeurs , la déduction erronée de la causalité, etc.p
À mon avis, certains malentendus sont spécifiques à la régression multiple:
la source
Je dirais que le premier que vous citez est probablement le plus commun - et peut-être le plus largement enseigné de cette façon - des choses qui sont clairement perçues comme étant fausses, mais voici quelques autres qui sont moins claires dans certaines situations ( s’ils s’appliquent vraiment) mais peuvent avoir un impact sur encore plus d’analyses et peut-être plus sérieusement. Celles-ci ne sont souvent tout simplement jamais mentionnées lorsque le sujet de la régression est introduit.
Traiter comme des échantillons aléatoires de la population d'intérêt des ensembles d'observations qui ne peuvent pas être proches de représentatives (et encore moins échantillonnées de manière aléatoire). [Certaines études pourraient plutôt être considérées comme plus proches des échantillons de commodité]
Avec des données d'observation, ignorer simplement les conséquences de la suppression de facteurs importants du processus, ce qui fausserait certainement les estimations des coefficients des variables incluses (dans de nombreux cas, même le risque de changer de signe), sans chercher à traiter les moyens avec eux (que ce soit par ignorance du problème ou simplement en ignorant que rien ne peut être fait). [Certains domaines de recherche ont ce problème plus que d'autres, que ce soit en raison du type de données collectées ou du fait que les personnes dans certains domaines d'application ont plus de chances d'avoir été informées du problème.]
Régression parasite (principalement avec des données collectées au fil du temps). [Même lorsque les gens sont conscients que cela se produit, il existe une autre idée fausse commune selon laquelle la simple différence de supposée stationnaire est suffisante pour éviter complètement le problème.]
Bien sûr, il y en a beaucoup d'autres que l'on pourrait mentionner (traiter comme des données indépendantes qui seront presque certainement corrélées en série ou même intégrées peut être à peu près aussi commun, par exemple).
Vous remarquerez peut-être que toutes les études d'observation de données collectées au fil du temps peuvent être affectées en même temps. Pourtant, ce type d'étude est très courant dans de nombreux domaines de recherche où la régression est un outil standard. Comment ils peuvent arriver à la publication sans qu'un seul critique ou un seul éditeur sache au moins un d'entre eux et exige au moins un certain degré de non-responsabilité dans les conclusions continue de m'inquiéter.
Les statistiques posent de nombreux problèmes de résultats impossibles à reproduire dans le cas d’expériences assez soigneusement contrôlées (combinées à des analyses peut-être moins minutieuses), de sorte que dès que l’on sort de ces limites, à quel point la situation de reproductibilité doit-elle être pire?
la source
Je n’appellerais probablement pas ces idées fausses, mais peut-être des points communs de confusion / blocages et, dans certains cas, des problèmes que les chercheurs ne sont peut-être pas au courant.
Du côté des idées fausses des choses:
la source
D'après mon expérience, les étudiants ont souvent tendance à penser que les erreurs au carré (ou la régression par les MCO) sont intrinsèquement appropriées, précises et globalement utiles, voire incompatibles. J'ai souvent vu OLS faire de la publicité avec des remarques indiquant qu'il "donnait plus de poids à des observations plus extrêmes / déviantes", et la plupart du temps il est au moins implicite qu'il s'agisse d'une propriété souhaitable. Cette notion peut être modifiée ultérieurement, lorsque le traitement des valeurs éloignées et des approches robustes sont introduits, mais à ce stade, le dommage est causé. On peut soutenir que l'utilisation généralisée des erreurs carrées est historiquement plus liée à leur commodité mathématique qu'à une loi naturelle du coût des erreurs dans le monde réel.
Globalement, on pourrait insister davantage sur la compréhension du fait que le choix de la fonction d'erreur est quelque peu arbitraire. Idéalement, tout choix de pénalité dans un algorithme devrait être guidé par la fonction de coût correspondante dans le monde réel associée à une erreur potentielle (c'est-à-dire en utilisant un cadre décisionnel). Pourquoi ne pas d'abord établir ce principe et ensuite voir à quel point nous pouvons le faire?
la source
Une autre idée fausse commune est que le terme d'erreur (ou la perturbation dans le langage économétrique) et les résidus sont la même chose.
Le terme d'erreur est une variable aléatoire dans le modèle réel ou le processus de génération de données. On suppose souvent qu'il suit une certaine distribution, alors que les résidus sont les déviations des données observées par rapport au modèle ajusté. En tant que tels, les résidus peuvent être considérés comme des estimations des erreurs.
la source
L'idée fausse la plus courante que je rencontre est que la régression linéaire suppose la normalité des erreurs. Ce n'est pas. La normalité est utile en relation avec certains aspects de la régression linéaire, par exemple les petites propriétés d'échantillon telles que les limites de confiance des coefficients. Même pour ces choses, il existe des valeurs asymptotiques disponibles pour les distributions non normales.
La deuxième cause la plus fréquente est une confusion relative à l'endogénéité, par exemple ne pas faire attention aux boucles de rétroaction. S'il y a une boucle de retour de Y à X, c'est un problème.
la source
Une erreur que j'ai faite est de supposer une symétrie de X et Y dans la MCO. Par exemple, si je suppose une relation linéaire avec a et b donnés par mon logiciel utilisant OLS, alors je pense que supposer que X en fonction de Y donnera à OLS les coefficients: c'est faux.
Peut-être cela est-il également lié à la différence entre MCO et total des moindres carrés ou du premier composant principal.
la source
Celle que j'ai souvent vue est une idée fausse sur l'applicabilité de la régression linéaire dans certains cas d'utilisation, dans la pratique.
Par exemple, disons que la variable qui nous intéresse est le compte de quelque chose (exemple: visiteurs sur le site Web) ou le ratio de quelque chose (exemple: les taux de conversion). Dans de tels cas, la variable peut être mieux modélisée en utilisant des fonctions de liaison telles que Poisson (comptes), Bêta (ratios), etc. Ainsi, l'utilisation d'un modèle généralisé avec une fonction de liaison plus appropriée convient mieux. Mais juste parce que la variable n’est pas catégorique, j’ai vu des gens commencer par une régression linéaire simple (fonction lien = identité). Même si nous ne tenons pas compte des implications en termes de précision, les hypothèses de modélisation posent problème.
la source
En voici une qui est souvent négligée par les chercheurs:
la source
Une autre idée fausse répandue est que les estimations (valeurs ajustées) ne sont pas invariantes aux transformations, par exemple:
y i = → x T i ß
Si c’est ce que vous voulez pour les fonctions monotoniques pas nécessairement linéaire, alors vous voulez une régression quantile.f(⋅)
L'égalité ci-dessus est valable dans la régression linéaire pour les fonctions linéaires mais les fonctions non linéaires (par exemple, ), cela ne sera pas le cas. Cependant, cela sera valable pour toute fonction monotone dans la régression quantile.log(⋅)
Cela se produit tout le temps lorsque vous effectuez une transformation logarithmique de vos données, réglez une régression linéaire, puis augmentez la valeur ajustée et que les utilisateurs lisent cela comme une régression. Ce n'est pas la moyenne, c'est la médiane (si les choses sont vraiment log-normalement distribuées).
la source