Si

8

Une hypothèse pour l'analyse de régression est que et ne sont pas entrelacés. Cependant quand j'y pense Il me semble que cela a du sens.XY

Voici un exemple. Si nous avons un test avec 3 sections (AB et C). La note globale du test est égale à la somme des notes individuelles pour les 3 sections. Maintenant, il est logique de dire que peut être noté dans la section A et le score global du test. La régression linéaire peut alors répondre à cette question: quelle est la variabilité du score global du test qui est attribuable à la section A? Ici, plusieurs scénarios sont possibles:XY

  1. La section A est la plus difficile des 3 sections et les élèves obtiennent toujours le score le plus bas. Dans un tel cas, serait intuitivement faible. Parce que la plupart des résultats globaux du test seraient déterminés par B et C.R2
  2. La section A était très facile pour les étudiants. Dans ce cas également, la corrélation ne serait pas élevée. Parce que les étudiants obtiennent toujours 100% de cette section et donc cette section ne nous dit rien sur le score global du test.
  3. La section A a une difficulté intermédiaire. Dans ce cas, la corrélation serait plus forte (mais cela dépend aussi des autres scores (B et C).

Un autre exemple est le suivant: nous analysons le contenu total d'un oligo-élément dans l'urine. Et nous analysons indépendamment les espèces individuelles (formes chimiques) de cet oligo-élément dans l'urine. Il peut y avoir de nombreuses formes chimiques. Et si nos analyses sont correctes, la somme des formes chimiques devrait nous donner la même chose que le contenu total d'un élément (analysé par une technique différente). Cependant, il est logique de se demander si une forme chimique est corrélée avec la teneur totale en éléments dans l'urine, car cette teneur totale est un indicateur de l'apport total de nourriture de cet élément. Ensuite, si nous disons que est l'élément total dans l'urine etXY est la forme chimique A dans l'urine, puis en étudiant la corrélation, nous pouvons explorer si cette forme chimique est la principale qui contribue à la variabilité globale ou non.

il me semble que cela a du sens parfois même lorsque et ne sont pas indépendants et que cela peut dans certains cas aider à répondre à des questions scientifiques.XY

Pensez-vous que peut être utile ou significatif dans les exemples ci-dessus? Si nous considérons l'exemple de score de test ci-dessus, je dirais déjà qu'il y aurait une contribution d'environ 33% de chaque section si la difficulté avait été exactement la même pour les étudiants. Mais en pratique, ce n'est pas nécessairement vrai. Je pensais donc que l'utilisation d'une analyse de régression pourrait nous aider à connaître la véritable variabilité attribuée à chaque section d'un examen. Il me semble donc que serait significatif même si nous savons déjà que l'hypothèse nulle n'est pas vraie.R2R2

Existe-t-il d'autres méthodes de régression modifiées pour tenir compte de telles situations et nous fournir des paramètres significatifs?

Bassam
la source
Je ne suis pas d'accord avec cette affirmation: "1- la section A est la plus difficile des 3 sections et les élèves obtiennent toujours le score le plus bas. Dans un tel cas, intuitivement, R au carré serait faible." Si la section A est la plus difficile, il y aura plus d'incohérences de réponses conduisant à une variabilité accrue en conséquence, R au carré, qui mesure la proportion de variabilité expliquée par la section A serait plus grande.
StatsStudent
Merci pour votre commentaire. Je pensais que la section A est difficile dans la mesure où tous les élèves obtiennent un score très bas (et proche de zéro sur une échelle de 0 à 100) sur cette section. La variabilité du score de cette section ne contribue donc pas de manière significative au score global du test (par exemple, peu importe qu'il soit de 15, 20 ou 10%). La note globale du test (et sa variabilité) sera déterminée par les autres notes plus variables qui jouent le plus grand rôle dans la note globale.
Bassam
Pourquoi vous attendez-vous à ce que et soient indépendants dans une analyse de régression? L'un est la valeur moyenne de l'autre (du moins si nous omettons d'autres prédicteurs). De plus, je ne comprends pas votre première phrase, quelle hypothèse est-ce? Une régression devrait impliquer une sorte d’entrelacement. YX
swmo

Réponses:

5

Vous voudrez peut-être envisager une approche en dehors de l'approche de régression traditionnelle. C'est comparable aux types de problèmes que la psychométrie est conçue pour résoudre (enfin, votre premier exemple est précisément cela, car c'est un test).

Dans la théorie des tests classiques , l'une des mesures les plus courantes est la corrélation du score total de l'élément, qui est essentiellement la corrélation entre le score de l'élément et le score total. Il vous indique la discrimination de l'élément - c'est la capacité de faire la distinction entre les répondants ayant un score élevé et faible. C'est comparable à expliquer la variance, comme ce que vous demandez ci-dessus avec . Il existe deux façons de calculer ce score, soit en utilisant le score total du test, y compris l'élément d'intérêt, soit en l'excluant. Lorsque vous avez beaucoup d'articles, ces deux méthodes sont presque les mêmes, mais lorsque vous en avez peu, elles peuvent faire une grande différence.R2

Une autre approche de la théorie de la réponse à l'item (IRT) consiste à estimer, soit via un modèle de réponse à l'item à 2 paramètres, soit via une analyse factorielle confirmatoire (qui sont statistiquement les mêmes, mais les interprétations sont différentes). Un modèle à 2 paramètres comprend un paramètre pour la difficulté de l'item (la difficulté relative de l'item) et un pour la discrimination de l'item, qui est interprété très similaire à la corrélation du score total de l'item. Discrimination élevée = l'item fait bien la différence entre les scores élevés et les scores faibles. Si vous utilisez l'analyse factorielle confirmatoire (CFA), vous avez des charges d'articles, qui sont essentiellement vos paramètres de discrimination. Ils vous indiquent quelle part du score total est générée par un élément particulier.

L'utilisation de l'IRT ou du CFA suppose que vous avez un score latent, et non un score observé, que vous essayez d'estimer. Dans les exemples que vous donnez ci-dessus, vous vous préoccupez d'un score observé, qui n'est pas latent. Ces modèles ne seraient donc pas ce que vous recherchez, car ils sont probabilistes et vous avez en quelque sorte une relation tautologique (votre total est par définition composé des pièces, sans erreur). Mais je les cite comme exemples de moyens par lesquels les statistiques parviennent à des réponses similaires.

La dernière chose que je veux souligner, et c'est probablement quelque chose avec laquelle d'autres discuteraient, mais alors qu'une hypothèse est que les régresseurs sont indépendants, lorsque nous avons une variable catégorielle et que nous entrons des variables fictives dans le modèle, ces variables fictives sont, par définition , corrélé. Cela violerait donc apparemment les hypothèses d'indépendance et apporterait la multicolinéarité. Si vous y pensez de cette façon, il serait judicieux d'exécuter votre régression de dire les éléments dans l'urine et d'en exclure un, les coefficients seraient valides comme s'il s'agissait d'une seule variable catégorielle. En ce sens, vous obtenez un nombre comparable à la corrélation article-total de la théorie des tests classiques que j'ai indiquée ci-dessus.

robin.datadrivers
la source
4

Une manière mathématique rapide de voir les choses consiste à développer les formules. Soit .Z=X+Y+W

R2=(Cov(X,Z)σXσZ)2=(Var(X)+Cov(X,Y)+Cov(X,W)σXσZ)2

Donc, en résumé, vous obtiendrez la variance de plus sa relation avec vos deux autres variables, divisée par un facteur d'échelle. Le facteur d'échelle lui-même pourrait être élargi, mais le numérateur raconte l'histoire. En général, les choses qui affecteront ce nombre sont a) l'échelle relative de X par rapport à Y et W, b) la variance relative de X, c) la "contribution" de X à la variance de Y et W.X

Quant à savoir si c'est utile ou non, cela dépend de ce que vous recherchez. Il est probablement préférable de le considérer comme un "pourcentage de la variation totale" ou quelque chose comme ça, même si la même chose pour Y et W peut ne pas correspondre à 1 (ou peut-être que ce n'est pas sûr).

Mike Nute
la source
2

Si X est l'une de plusieurs variables qui résument pour définir Y, alors clairement les hypothèses de régression linéaire sont brisées. Les valeurs P ne seront pas utiles. Les pentes et leurs intervalles de confiance ne peuvent pas être interprétés de la manière habituelle. Mais estR2toujours utile? Je suppose que c'est comme une statistique descriptive. Si vous en avez troisR2 valeurs quantifiant la corrélation entre Y et chacune de ses trois composantes, je suppose que vous apprenez quelque chose d'intéressant en voyant les valeurs relatives de R2.

Harvey Motulsky
la source
Merci pour votre commentaire. C'était exactement mon sentiment. Que les valeurs R2 et une comparaison entre elles pourraient nous fournir des informations utiles.
Bassam
0

Une hypothèse pour l'analyse de régression est que X et Y ne sont pas entrelacés.

Ceci est une erreur. Une hypothèse pour l'analyse de régression est que les ERREURS ne sont pas corrélées. Voir l'entrée wikipedia pour le théorème de Gauss-Markov.

Si X est l'une des nombreuses variables qui résument Y, est le R2 entre X et Y une valeur utile?

À propos de la seule utilisation à laquelle je peux penser R2 entre X et Yest de montrer à quel point votre modèle fonctionne mieux lorsque vous incluez d'autres prédicteurs. Il y a d'autres valeurs qui seraient très informatives. Les valeurs des coefficients estimés et leurs erreurs types en particulier.

jimmylovestea
la source