Les différences entre la régression logistique aléatoire et la régression logistique Plaine-Vanille

12

Je voudrais connaître les différences entre la régression logistique randomisée (RLR) et la régression logistique simple (LR), par conséquent, je lis un article "Sélection de la stabilité" de Meinshausen, et al. ; cependant je ne comprends pas ce qu'est RLR et quelles sont les différences entre RLR et LR.

Quelqu'un pourrait-il indiquer ce que je dois lire pour comprendre RLR? Ou existe-t-il un exemple simple pour commencer?

Hendra Bunyamin
la source
1
RLR n'est pas un terme standard. Veuillez définir la méthode.
Frank Harrell
Merci @FrankHarrell ... La méthode provient d' une bibliothèque d'apprentissage scikit .
Hendra Bunyamin le
Maintenant qu'il existe un nouveau site d'échange de pile pour l'apprentissage automatique / Big Data, cette question appartient peut-être là-bas.
Placidia
4
@Placidia C'est une bonne suggestion. Cependant, votre propre réponse montre pourquoi cette question appartient ici: nous sommes mieux en mesure de fournir une perspective équilibrée qui caractérise et compare avec précision les aspects statistiques et ML de la question. Bien qu'il soit possible que quelqu'un sur le site "data science" puisse apporter une telle réponse, mon expérience là-bas est peu probable.
whuber
3
Je suis stupéfait que le nouveau site s'appelle la science des données, qui concerne plus de la moitié des statistiques, ce qui est ce site.
Frank Harrell

Réponses:

17

Vous voudrez peut-être vérifier cette référence . Sci-kit learn met en œuvre une régression logistique randomisée et la méthode y est décrite.

Mais pour répondre à votre question, les deux méthodes diffèrent largement dans leurs objectifs. La régression logistique consiste à ajuster un modèle et RLR à rechercher les variables qui entrent dans le modèle.

La régression logistique de la vanille est un modèle linéaire généralisé. Pour une réponse binaire, nous supposons que la cote log de la probabilité de réponse est une fonction linéaire d'un certain nombre de prédicteurs. Les coefficients des prédicteurs sont estimés en utilisant le maximum de vraisemblance et l'inférence sur les paramètres est ensuite basée sur de grandes propriétés d'échantillon du modèle. Pour de meilleurs résultats, nous supposons généralement que le modèle est assez simple et bien compris. Nous savons quelles variables indépendantes influent sur la réponse. Nous voulons estimer les paramètres du modèle.

Bien sûr, dans la pratique, nous ne savons pas toujours quelles variables doivent être incluses dans le modèle. Cela est particulièrement vrai dans les situations d'apprentissage automatique où le nombre de variables explicatives potentielles est énorme et leurs valeurs sont rares.

Au fil des ans, de nombreuses personnes ont essayé d'utiliser les techniques d'ajustement des modèles statistiques dans le but de sélectionner des variables (lire "caractéristique"). En augmentant le niveau de fiabilité:

  1. Ajustez un grand modèle et supprimez les variables avec des statistiques de Wald non significatives. Ne produit pas toujours le meilleur modèle.
  2. Regardez tous les modèles possibles et choisissez le "meilleur". Calcul intensif et peu robuste.
  3. Ajustez le grand modèle avec un terme de pénalité L1 (style lasso). Les variables inutiles sont supprimées dans l'ajustement. Mieux, mais instable avec des matrices clairsemées.
  4. Méthode de randomisation 3. Prendre des sous-ensembles aléatoires, adapter un modèle pénalisé à chacun et rassembler les résultats. Les variables qui reviennent fréquemment sont sélectionnées. Lorsque la réponse est binaire, il s'agit d'une régression logistique aléatoire. Une technique similaire peut être tirée avec des données continues et le modèle linéaire général.
Placidia
la source
2
+1 C'est un plaisir de voir une étude aussi bien articulée, lisible et informative d'une méthodologie générale.
whuber