Régression logistique ou test T?

17

Un groupe de personnes répond à une question. La réponse peut être "oui" ou "non". Le chercheur souhaite savoir si l'âge est associé au type de réponse.

L'association a été évaluée en effectuant une régression logistique où l'âge est la variable explicative et le type de réponse (oui, non) est la variable dépendante. Il a été traité séparément en calculant l'âge moyen des groupes qui ont répondu «oui» et «non», respectivement, et en effectuant un test T pour comparer les moyennes.

Les deux tests ont été effectués suivant les conseils de différentes personnes, et aucun d'eux n'est sûr de la bonne façon de procéder. Compte tenu de la question de recherche, quel serait le meilleur test?

Pour les tests d'hypothèse, les valeurs de p n'étaient pas significatives (régression) et significatives (test T). L'échantillon est inférieur à 20 cas.

regression logistic t-test Gwen
la source

2

Je ne suis pas sûr que cela soit votre vraie question. Vous avez déjà effectué les deux analyses dont vous parlez. Je suppose que ce que vous voulez vraiment savoir, c'est quelque chose à propos des comparaisons ou des relations entre ces tests, par exemple ce qui est mieux. Veuillez modifier votre question pour y remédier.

John

Les deux tests ont été effectués en suivant les conseils de différentes personnes, et aucune d'entre elles n'est sûre que ce soit la bonne façon de procéder. Compte tenu des questions de recherche (l'âge est-il associé au type de réponse?) Qui serait le meilleur test, une régression logistique du type de réponse sur l'âge ou un test T comparant l'âge moyen des personnes qui ont répondu «oui» à la moyenne l'âge des personnes qui ont répondu «non»?

Gwen

19

Les deux tests modélisent implicitement la relation âge-réponse, mais ils le font de différentes manières. Le choix dépend de la façon dont vous choisissez de modéliser cette relation. Votre choix devrait dépendre d'une théorie sous-jacente, s'il y en a une; sur le type d'informations que vous souhaitez extraire des résultats; et sur la façon dont l'échantillon est sélectionné. Cette réponse traite de ces trois aspects dans l'ordre.

Je décrirai le test t et la régression logistique en utilisant un langage qui suppose que vous étudiez une population bien définie de personnes et que vous souhaitez faire des inférences de l'échantillon à cette population.

Afin de soutenir tout type d'inférence statistique, nous devons supposer que l'échantillon est aléatoire.

Un test t suppose que les personnes de l'échantillon qui ont répondu «non» sont un simple échantillon aléatoire de tous les non-répondants de la population et que les personnes de l'échantillon qui ont répondu «oui» sont un simple échantillon aléatoire de tous les oui qui ont répondu population.

Un test t fait des hypothèses techniques supplémentaires sur les distributions des âges dans chacun des deux groupes de la population. Il existe différentes versions du test t pour gérer les possibilités probables.
La régression logistique suppose que toutes les personnes de tout âge sont un simple échantillon aléatoire des personnes de cet âge dans la population. Les groupes d'âge distincts peuvent présenter différents taux de réponses «oui». Ces taux, lorsqu'ils sont exprimés en log cotes (plutôt qu'en proportions droites), sont supposés être liés linéairement à l'âge (ou à certaines fonctions déterminées de l'âge).

La régression logistique est facilement étendue pour tenir compte des relations non linéaires entre l'âge et la réponse. Une telle extension peut être utilisée pour évaluer la plausibilité de l'hypothèse linéaire initiale. Il est réalisable avec de grands ensembles de données, qui offrent suffisamment de détails pour afficher les non-linéarités, mais il est peu probable qu'il soit très utile avec de petits ensembles de données. Une règle d'or courante - selon laquelle les modèles de régression devraient avoir dix fois plus d'observations que de paramètres - suggère que sensiblement plus de 20 observations sont nécessaires pour détecter la non-linéarité (qui a besoin d'un troisième paramètre en plus de l'interception et de la pente d'une fonction linéaire ).

Un test t détecte si les âges moyens diffèrent entre les répondants non et oui dans la population. Une régression logistique estime comment le taux de réponse varie selon l'âge. En tant que tel, il est plus flexible et capable de fournir des informations plus détaillées que le test t. En revanche, il a tendance à être moins puissant que le test t dans le but fondamental de détecter une différence entre les âges moyens dans les groupes.

Il est possible que la paire de tests présente les quatre combinaisons de signification et de non-signification. Deux d'entre eux sont problématiques:

Le test t n'est pas significatif mais la régression logistique l'est. Lorsque les hypothèses des deux tests sont plausibles, un tel résultat est pratiquement impossible, car le test t n'essaie pas de détecter une relation aussi spécifique que celle posée par la régression logistique. Cependant, lorsque cette relation est suffisamment non linéaire pour amener les sujets les plus âgés et les plus jeunes à partager une opinion et les sujets d'âge moyen une autre, l'extension de la régression logistique aux relations non linéaires peut détecter et quantifier cette situation, qu'aucun test t n'a pu détecter. .
Le test t est significatif mais la régression logistique ne l'est pas, comme dans la question. Cela se produit souvent, surtout lorsqu'il y a un groupe de répondants plus jeunes, un groupe de répondants plus âgés et peu de personnes entre les deux. Cela peut créer une grande séparation entre les taux de réponse des non et des oui. Il est facilement détecté par le test t. Cependant, la régression logistique aurait soit relativement peu d'informations détaillées sur la façon dont le taux de réponse évolue réellement avec l'âge, soit des informations non concluantes: le cas de la "séparation complète" où toutes les personnes âgées répondent d'une manière et toutes les plus jeunes d'une autre manière ... mais dans ce cas, les deux tests auraient généralement des valeurs de p très faibles.

Notez que la conception expérimentale peut invalider certaines des hypothèses de test. Par exemple, si vous avez sélectionné des personnes en fonction de leur âge dans un plan stratifié, l'hypothèse du test t (que chaque groupe reflète un échantillon aléatoire aléatoire d'âges) devient discutable. Cette conception suggérerait de s'appuyer sur une régression logistique. Si, à la place, vous aviez deux pools, l'un des non-répondants et l'autre des oui, et choisis au hasard parmi ceux pour vérifier leur âge, les hypothèses d'échantillonnage de la régression logistique sont douteuses tandis que celles du test t se maintiendront. Cette conception suggérerait d'utiliser une certaine forme de test t.

(La deuxième conception peut sembler idiote ici, mais dans des circonstances où «l'âge» est remplacé par une caractéristique difficile, coûteuse ou longue à mesurer, elle peut être attrayante.)

whuber
la source

La plupart des problèmes de non-linéarité et de séparation ne seront-ils pas atténués en utilisant une spline sur la variable d'âge? À ce sujet, je m'excuse, mais je ne vois pas pourquoi la conception «groupée» invaliderait les résultats de la régression logistique. Bien sûr, l'hypothèse d'un échantillon aléatoire a disparu, mais nous en soucions-nous étant donné que nous faisons ce choix de conception? Faites-vous allusion au biais de sélection? (La conception que vous décrivez me semble être une étude cas-témoins mais je me trompe peut-être ...) (+1 évidemment)

usεr11852 dit Reinstate Monic

@ usεr11852 Merci pour vos commentaires réfléchis. J'ai réécrit certains passages pour clarifier les points que vous soulevez. Bien que le fait de diviser l'âge puisse faire face à la non-linéarité de la régression logistique, il peut augmenter la possibilité d'une séparation complète. Je ne suis pas sûr de ce que vous entendez par «conception groupée», mais je me méfierais des efforts visant à interpréter les valeurs de p d'une régression logistique où un modèle de probabilité ne peut pas être justifié (ce que l'échantillonnage aléatoire nous permet de faire).

whuber

Merci pour ces derniers. Oui, j'apprécie pleinement le point que vous faites sur la séparation complète (effets Hauck-Donner), je ne les ai pas pris en compte. OK, je vois ce que vous voulez dire maintenant sur les deux piscines maintenant. Dans ce cas, nous aurions un concept d'étude d'observation convenu (nous observons / définissons les deux pools), nous devons donc rechercher de façon

immédiate un

5

$t$ $X$ $Y$

X | Oui = je \sim N (μ_{je}, σ^{2}) .

$X|Y=i \sim N(\mu_i,\sigma^2).$

Y \sim bernoulli (p)

$Y \sim \operatorname{bernoulli}(p)$

Y

$Y$

X = x

$X=x$

\begin{aligned} P (Oui = 1 | X = X) & = \frac{F_{X | Oui = 1} (X) P (Oui = 1)}{\sum_{je = 0}^{1} F_{X | Oui = je} (X) P (Oui = je)} \\ = \frac{p e^{- \frac{1}{2 σ^{2}} (X - μ_{1})^{2}}}{p e^{- \frac{1}{2 σ^{2}} (X - μ_{1})^{2}} + (1 - p) e^{- \frac{1}{2 σ^{2}} (X - μ_{0})^{2}}} \\ = \frac{1}{1 + \frac{1 - p}{p} e^{- \frac{1}{2 σ^{2}} (X - μ_{0})^{2} + \frac{1}{2 σ^{2}} (X - μ_{1})^{2}}} \\ = {logit}^{- 1} (β_{0} + β_{1} X) \end{aligned}

$\begin{align} P(Y=1|X=x) &=\frac{f_{X|Y=1}(x)P(Y=1)}{\sum_{i=0}^1 f_{X|Y=i}(x)P(Y=i)} \\&=\frac{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2}}{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2} + (1-p)e^{-\frac1{2\sigma^2}(x-\mu_0)^2}} \\&=\frac1{1+\frac{1-p}pe^{-\frac1{2\sigma^2}(x-\mu_0)^2+\frac1{2\sigma^2}(x-\mu_1)^2}} \\&=\operatorname{logit}^{-1}(\beta_0 + \beta_1 x) \end{align}$

\begin{aligned} β_{0} & = \ln \frac{p}{1 - p} - \frac{1}{2 σ^{2}} (μ_{1}^{2} - μ_{0}^{2}) \\ β_{1} & = \frac{1}{σ^{2}} (μ_{1} - μ_{0}) . \end{aligned}

$\begin{align}\beta_0 &= \ln\frac p{1-p} -\frac1{2\sigma^2}(\mu_1^2-\mu_0^2) \\ \beta_1&=\frac1{\sigma^2}(\mu_1-\mu_0). \end{align}$

En ce sens, les deux modèles conditionnels sont donc compatibles.

Jarle Tufto
la source

3

Le meilleur test est celui qui répond le mieux à votre question. Ni l'un ni l'autre n'est meilleur sur son visage. Les différences ici sont équivalentes à celles trouvées lors de la régression de y sur x et x sur y et les raisons des résultats différents sont similaires. La variance évaluée dépend de la variable qui est traitée comme variable de réponse dans le modèle.

Votre question de recherche est terriblement vague. Peut-être que si vous envisagiez la direction de la causalité, vous seriez en mesure de conclure sur quelle analyse vous souhaitez utiliser. L'âge pousse-t-il les gens à répondre «oui» ou répond-il «oui» aux personnes qui vieillissent? C'est plus probablement le premier, auquel cas la variance dans la probabilité d'un «oui» est ce que vous souhaitez modéliser et donc la régression logistique est le meilleur choix.

Cela dit, vous devez examiner les hypothèses des tests. Ceux-ci peuvent être trouvés en ligne sur wikipedia ou dans vos manuels sur eux. Il se peut que vous ayez de bonnes raisons de ne pas effectuer la régression logistique et, lorsque cela se produit, vous devrez peut-être poser une question différente.

John
la source

1

Vous voulez dire "ne pas effectuer la régression logistique"?

mark999

Régression logistique ou test T?

Réponses: