Régression logistique: interprétation des variables continues

11

J'avais quelques questions sur l'interprétation des rapports de cotes pour les variables continues dans la régression logistique. J'ai l'impression que ce sont des questions de base sur la régression logistique (et probablement sur la régression en général), et même si j'ai un peu honte de ne pas connaître les réponses, je vais ravaler ma fierté et les poser pour que je les connaisse l'avenir!

Voici ma situation ... Je regarde un échantillon de jeunes jugés qui, dans le cadre de leur probation, étaient inscrits à un programme de formation à l'emploi / compétences de vie. Je voulais voir dans quelle mesure l'âge auquel ils ont été libérés du programme prédit un emploi six mois après la libération du programme.

(Gardez également à l'esprit qu'il existe d'autres prédicteurs dans le modèle, mais je les ai exclus car ils ne sont pas statistiquement significatifs et je tiens à ce que cela soit aussi clair que possible.)

Prédicteur: âge de sortie du programme de formation (âge moyen = 17,4, ET = 1,2, intervalle 14,3-20,5)

Résultat: employé ou non (employé = 1, non employé = 0)

Résultat: rapport de cotes 3,01 (p <0,005) (j'ai exclu la qualité des statistiques d'ajustement, etc. parce que je cherche des réponses sur l'interprétation du rapport de cotes uniquement; je me sens à l'aise avec l'évaluation de l'ajustement du modèle, les IC , etc.)

En termes simples: à mesure que l'âge augmente d'un an, les chances d'avoir un emploi six mois après le congé augmentent de trois unités.

Des questions:

1) Quand je dis: "À mesure que l'âge augmente d'un an ..." quel est le point de départ de l'âge?

L'âge commence-t-il à zéro? Par exemple, "à mesure que l'âge augmente de 0 [c'est-à-dire l'âge le plus bas si vous placez ce modèle sur un graphique] ..."

L'âge commence-t-il à l'âge le plus bas parmi la gamme des âges de l'échantillon? Par exemple, "à mesure que l'âge passe de 14,3 ans ..."

OU

L'âge commence-t-il à l'âge moyen de l'échantillon? Par exemple, «à mesure que l'âge passe de 17,4 ans»,

2) Est-ce que le centrage m'aiderait à interpréter ce résultat OU est-ce seulement efficace pour interpréter le y-int? Si cela pouvait aider, je pensais faire le centrage ou la soustraction de l'âge le plus bas de la fourchette de tous les autres âges de l'échantillon. Aucune suggestion?

3) Enfin, est-il approprié de dire que par rapport à un jeune de 14 ans, un jeune de 17 ans a neuf fois plus de chances d'avoir un emploi? Je pose la question parce que je sais que la régression logistique suppose une relation sigmoïdale, et je suis curieux de savoir si cette augmentation de 3 unités des cotes reste cohérente à tout moment le long de la ligne de régression.

Merci beaucoup!

Aaron

user44992
la source
1
Vous pourriez être intéressé par ce .
tchakravarty
4
La suppression des variables "insignifiantes" est très problématique.
Frank Harrell
@FrankHarrell pourriez-vous expliquer pourquoi la suppression de variables insignifiantes est très problématique dans ce cas?
Mark White
Cela a été longuement discuté sur ce site. En bref, cela ruine les erreurs standard, les valeurs P, la couverture de l'intervalle de confiance, etc.
Frank Harrell

Réponses:

6

1) Comme il s'agit d'un rapport de cotes, peu importe où vous commencez. Les chances pour un jeune de 18 ans sont 3 fois supérieures à celles d'un jeune de 17 ans. Ou les chances pour un jeune de 17 ans sont 1/3 de celles d'un jeune de 18 ans. Même chose. Si vous voulez obtenir la probabilité qu'une personne d'un âge particulier soit employée, vous pouvez utiliser la formule avec les estimations de paramètres (pas les OR). Ou vous pouvez obtenir le programme que vous utilisez pour le faire pour vous.

2) Que le centrage soit utile est une question d'opinion. Je ne trouve pas les modèles centrés plus clairs, mais certaines personnes le font.

3) Les chances ne sont pas exactement les mêmes que «probables» (bien que beaucoup de gens parlent comme si elles l'étaient) et les chances pour un jeune de 17 ans seraient 27 fois celles d'un jeune de 14 ans.

Enfin, je serais prudent avec ce modèle. Le modèle suppose que la RO est la même entre 14 et 15, 15 et 16 et ainsi de suite. Cela me semble peu probable, d'après ce que je sais du sujet.

Peter Flom - Réintégrer Monica
la source
0

La probabilité moyenne de s'inscrire au problème de formation pour un individu est # fois la probabilité pour un autre individu qui est un an plus jeune / plus âgé, après avoir maintenu toutes les autres variables constantes.

C'est mon point de vue.

Yiwan Ye
la source
1
Pouvez-vous développer comment cela s'ajoute à la réponse précédente?
mdewey