Choisir entre les transformations de la régression logistique

8

En régression linéaire, les transformations des variables explicatives sont effectuées pour avoir une corrélation maximale avec la variable dépendante.

Quelle est la meilleure mesure pour choisir entre plusieurs transformations dans la régression logistique, car la variable dépendante est binaire et non continue?

L'objectif final est de maximiser la portance (puissance prédictive) du modèle.

Jatin
la source

Réponses:

14

Le critère d'optimalité utilisé par la régression logistique (et de nombreuses autres méthodes) est la fonction de vraisemblance. Il est utilisé pour estimer incluant plusieurs représentant un pour obtenir des ajustements quadratiques, cubiques et polynomiaux par morceaux (spline). Il peut également être utilisé pour choisir parmi les transformations concurrentes de mais l'acte de choisir ne sera pas reflété dans la matrice d'informations, de sorte que la variance résultante deββXXXβ^sera trop petit, les intervalles de confiance n'auront donc pas la probabilité de couverture indiquée. Si vous faites de l'estimation de la transformation un objectif explicite de l'ajustement du modèle (et les splines de régression sont d'excellents moyens de le faire), vous préserverez tous les aspects de l'inférence statistique. Selon la taille de l'échantillon, une spline cubique restreinte (linéaire dans les deux queues) à 4 nœuds, nécessitant 3 paramètres, peut être un bon choix.

Frank Harrell
la source
Merci pour la réponse. Voici mes préoccupations: 1) Une transformation choisie de façon univariée sera-t-elle la même si je devais en choisir une multivariée? Pour moi, il n'y a aucune raison de croire que le choix univarié sera le meilleur en combinaison avec d'autres variables transformées. 2) Je ne préfère pas utiliser de splines en raison de la possibilité de sur-ajustement et de mauvaises performances dans les ensembles de validation. Je pensais utiliser la transformation de Box-Cox pour les variables explicatives et trouver la meilleure transformation avec une valeur optimale de . Est-ce que ça a du sens? Des pensées? λ
Jatin
Non, cela ne résonne pas. Box-Cox est utilisé pour univarié continu , et de nombreux utilisateurs de Box-Cox ne savent pas pénaliser l'incertitude dans ni que Box-Cox fait une forte hypothèse sur l'origine de la mesure (zéro). Les splines ne se superposent pas plus que d'avoir trop de prédicteurs, et vous pouvez contrôler la quantité d'ajustement avec le nombre de nœuds et avec le retrait (pénalisation; voir la fonction R pour la pénalisation quadratique). Comme vous l'avez dit, il est préférable d'estimer les transformations de façon ajustée plutôt que univariée. Y\lambarms lrm
Frank Harrell
6
  1. Non, dans les modèles linéaires, la transformation n'est pas (ou ne devrait pas) être effectuée pour avoir une corrélation maximale avec la variable dépendante. Cela devrait être fait pour a) répondre aux hypothèses du modèle sur les résidus ou b) avoir une variable explicative plus sensible; c'est-à-dire qui a du sens, sur le fond. Comme le souligne @Andy, cela peut ne pas être suffisant. Mais, dans ce cas, je chercherais alors une autre méthode de régression (voir ci-dessous) plutôt que de prendre une transformation bizarre. Par exemple, un modèle tel que va être un gâchis à expliquer.Y=b0+b1x1.21+b2x2.73

  2. Dans la régression logistique (au moins, dans la logistique dichotomique), il y a moins d'hypothèses (et aucune sur les résidus, pour autant que je sache), donc seul b) s'applique.

Même pour les modèles linéaires, je préférerais utiliser b). Et puis, si les hypothèses ne sont pas remplies, en utilisant une autre forme de régression (pourrait être une régression robuste, pourrait être un modèle spline, pourrait être des polynômes).

Peter Flom
la source
La déclaration have a more sensible explanatory variableest assez ambiguë et devrait être développée. Je considérerais généralement qu'il s'agit d'une transformation qui permet une interprétation plus facile des coefficients de régression, mais qui n'est évidemment pas suffisant en soi (pour l'OLS ou la régression logistique).
Andy W
Comme je l'ai dit dans mon article, le pouvoir prédictif est une préoccupation majeure. Il est souhaitable d'avoir des variables explicatives sensibles, mais ce n'est pas une priorité. Par conséquent, si me donne une meilleure portance, c'est acceptable à ce stade. La question est de savoir comment choisir le meilleur ensemble de transformations pour donner la portance maximale. Y=b0+b1x1.21+b2x2.73
Jatin
3

Avec la modélisation linéaire généralisée, la mesure mathématique qui est minimisée est appelée la «déviance» (-2 * log-vraisemblance). Il existe plusieurs sortes de résidus qui peuvent être développés. Les «résidus de déviance» sont les termes individuels dans une expression modestement complexe. Je pense que ceux-ci sont plus compréhensibles lorsqu'ils sont appliqués à des variables catégorielles. Pour une variable catégorielle utilisant la régression logistique, ce ne sont que les différences entre les log-odds (modèle) et les log-odds (données), mais pour les variables continues, elles sont un peu plus complexes. Les résidus de déviance sont ce qui est minimisé dans le processus itératif. Voir cette description sur le site Web de l'UCLA pour de belles parcelles de résidus de déviance.

Il me semble que l'analyse de la "portance" se fait sur l'échelle des probabilités, plutôt que sur l'échelle log-odds ou odds ou les probabilités. Je vois que Frank Harrell a offert quelques conseils et tout différend perçu entre Frank et moi devrait être résolu par une pondération massive de l'opinion de Frank. (Mon conseil serait d'acheter le livre RMS de Frank.) Je suis surpris qu'il n'ait pas donné de conseils pour envisager des méthodes pénalisées et qu'il n'a pas émis de mise en garde contre le sur-ajustement. Je pense que choisir une transformation simplement parce qu'elle maximise la "portance" reviendrait à choisir des modèles qui maximisent la "précision". Je sais qu'il n'approuve pas cette stratégie.

DWin
la source