Surajustement d'un modèle de régression logistique

28

Est-il possible d'ajuster un modèle de régression logistique? J'ai vu une vidéo disant que si ma zone sous la courbe ROC est supérieure à 95%, il est très probable qu'elle soit sur-ajustée, mais est-il possible de sur-adapter un modèle de régression logistique?

carlosedubarreto
la source
1
Pouvez-vous dire quelle vidéo, ou au moins donner un peu plus de contexte?
Glen_b -Reinstate Monica
2
Bien sûr @Glen_b, la vidéo était la suivante: lien Le commentaire était à 40min. Il disait cette chose: quand ROC a l'AUC entre 0,5 et 0,6, c'était pauvre. Si entre 0,6 et 0,7, c'est en dessous de la moyenne. Si entre 0,7 et 0,75, c'est une moyenne / bonne. C'est entre 0,75 et 0,8 c'est bon. Si entre 0,8 et 0,9, c'est Excelent. Si supérieur à 0,9, il est suspect et s'il est supérieur à 0,95, il est trop adapté. J'ai trouvé cette explication très facile à comprendre, mais est-ce vrai? Parce que je cherche quelque chose pour sauvegarder cette pensée mais je ne trouve pas.
carlosedubarreto
Et Glen_B, l'explication donnée par @AdamO semble que l'explication que j'ai vue sur la vidéo n'était pas tout à fait juste, mais j'ai peut-être mal compris l'explication d'Adam. Ces trucs Statiscs sont très complexes, mais c'est un vrai plaisir de creuser profondément. :)
carlosedubarreto
Je pense que l'explication d'AdamO est bonne (je l'ai votée), mais les questions sont censées être des ressources permanentes; un lecteur plus tard (par exemple quelqu'un avec une question similaire) peut vouloir le contexte de savoir ce qui a été dit. Je pense que votre description dans le commentaire donne suffisamment de contexte pour la plupart des gens et le lien fera l'affaire pour le reste. Alors merci! Vous avez rendu votre question plus utile.
Glen_b -Reinstate Monica
Merci beaucoup @Glen_b, j'apprends à utiliser cet outil génial que nous avons (ce forum). Je garderai votre conseil à l'esprit lorsque vous poserez de nouvelles questions.
carlosedubarreto

Réponses:

36

Oui, vous pouvez équiper des modèles de régression logistique. Mais d'abord, je voudrais aborder le point concernant l'AUC (zone sous la courbe caractéristique de fonctionnement du récepteur): il n'y a jamais de règles générales universelles avec l'AUC, jamais jamais.

L'AUC est la probabilité qu'un positif (ou un cas) échantillonné de manière aléatoire ait une valeur de marqueur plus élevée qu'un négatif (ou un contrôle) parce que l'ASC est mathématiquement équivalente à la statistique U.

Ce que l'AUC n'est pas, c'est une mesure normalisée de la précision prédictive. Les événements hautement déterministes peuvent avoir des AUC à prédicteur unique de 95% ou plus (comme dans la mécatronique contrôlée, la robotique ou l'optique), certains modèles complexes de prédiction du risque logistique multivariable ont des AUC de 64% ou moins comme la prédiction du risque de cancer du sein, et ceux-ci sont niveaux de précision prédictive relativement élevés.

Une valeur AUC sensible, comme pour une analyse de puissance, est prédéfinie en rassemblant des connaissances sur le contexte et les objectifs d'une étude a priori . Le médecin / ingénieur décrit ce qu'ils veulent et vous, le statisticien, décidez d'une valeur AUC cible pour votre modèle prédictif. Puis commence l'enquête.

Il est en effet possible d'ajuster un modèle de régression logistique. Mis à part la dépendance linéaire (si la matrice du modèle est de rang déficient), vous pouvez également avoir une concordance parfaite, ou le tracé des valeurs ajustées par rapport à Y discrimine parfaitement les cas et les contrôles. Dans ce cas, vos paramètres n'ont pas convergé mais résident simplement quelque part sur l'espace limite qui donne une probabilité de . Parfois, cependant, l'ASC est de 1 par hasard au hasard.

2βpnπ(1π)π=Prob(Y=1)p

AdamO
la source
y
π
Comment déterminez-vous la valeur AUC appropriée à viser?
Kevin H. Lin
1
@ KevinH.Lin Cela dépend de la nature de la question. Plus vous intégrez de connaissances contextuellement appropriées, mieux c'est. Ce serait la prévalence sous-jacente ou le fardeau de la maladie ou de l'état que le modèle évalue, la performance des modèles existants (concurrents), les compromis coût-efficacité et les politiques entourant l'adoption de nouvelles pratiques et / ou recommandations. Rien n'est noir et blanc, mais comme tant de choses, vous devez argumenter de manière convaincante pour convaincre et raisonner en faveur d'une valeur AUC que vous, en tant que statisticien, prespécifiez.
AdamO
1
@ KevinH.Lin Je ne pense pas qu'une réponse valable soit aussi claire et concise que celle que vous semblez vouloir. C'est comme demander: "Quelle voiture devrais-je acheter?" :) Je vous suggère de passer en revue les articles qui ont exploré les AUC dans le domaine de recherche pertinent qui vous intéresse. J'ai travaillé en grande partie sur des modèles de prédiction des risques de cancer du sein et à travers les travaux de Tice, Gail et Barlow, entre autres, j'ai vu qu'une ASC de 0,65 est très attrayante pour les modèles de prédiction basés sur la population qui ont une prévalence de moins de 1 à 20 cas incidents pour 5 000 années-personnes à risque en utilisant 7 facteurs de risque ayant RR btn 1,5 et 3.
AdamO
6

En termes simples ... un modèle de régression logistique surajusté a une grande variance, ce qui signifie que les limites de décision changent en grande partie pour un petit changement d'amplitude variable. considérer l'image suivante le plus à droite est le modèle logistique surajusté, sa limite de décision a un grand no. des hauts et des bas tandis que celui du milieu est juste en forme, il a une variance modérée et un biais modéré. celui de gauche est en sous-vêtements, il a un biais élevé mais très moins de variance. une chose de plus_ Un modèle de regresion surajusté a trop de fonctionnalités tandis que le modèle de sous-vêtements a très moins de non. des fonctionnalités. image montrant le modèle de résonance logistique des sous-ensembles, des justits et des surajustés.  Le marqueur coloré bleu montre la limite de décision.

user110267
la source
8
Veuillez ajouter une référence pour l'image (en fait le cours d'Andrew Ng).
Alexander Rodin
5

Vous pouvez suréquiper avec n'importe quelle méthode, même si vous adaptez toute la population (si la population est finie). Il existe deux solutions générales au problème: (1) l'estimation du maximum de vraisemblance pénalisé (régression des crêtes, filet élastique, lasso, etc.) et (2) l'utilisation de prieurs informatifs avec un modèle bayésien.

YYYY

Frank Harrell
la source
4

Existe-t-il un modèle, mis à part la régression logistique, qu'il n'est pas possible de sur-équiper?

Le sur-ajustement survient fondamentalement parce que vous correspondez à un échantillon et non à l'ensemble de la population. Les artefacts de votre échantillon peuvent ressembler à des caractéristiques de la population et ils ne le sont pas, et donc le sur-ajustement fait mal.

Cela s'apparente à une question de validité externe. En utilisant uniquement l'échantillon, vous essayez d'obtenir un modèle qui vous donne les meilleures performances sur la population réelle que vous ne pouvez pas voir.

Bien sûr, certaines formes ou procédures de modèle sont plus susceptibles de s'adapter que d'autres, mais aucun modèle n'est jamais vraiment à l'abri du sur-ajustement, n'est-ce pas?

Même la validation hors échantillon, les procédures de régularisation, etc. ne peuvent que prévenir le sur-ajustement, mais il n'y a pas de solution miracle. En fait, si l'on devait estimer sa confiance à faire une prédiction du monde réel sur la base d'un modèle ajusté, il faut toujours supposer qu'un certain sur-ajustement s'est effectivement produit.

Dans quelle mesure peut varier, mais même un modèle validé sur un ensemble de données hold-out donnera rarement des performances in-wild qui correspondent à ce qui a été obtenu sur l'ensemble de données hold-out. Et le sur-ajustement est un gros facteur causal.

curious_cat
la source
0

Ce que nous faisons avec le Roc pour vérifier le sur-ajustement est de séparer le jeu de données au hasard lors de la formation et de la valorisation et de comparer l'AUC entre ces groupes. Si l'AUC est «beaucoup» (il n'y a pas non plus de règle empirique) plus grande à l'entraînement, il peut y avoir surapprentissage.

María Frances Gaska
la source