Comment la régression logistique peut-elle produire des courbes qui ne sont pas des fonctions traditionnelles?

15

Je pense que j'ai une certaine confusion fondamentale sur le fonctionnement des fonctions de régression logistique (ou peut-être simplement des fonctions dans leur ensemble).

Comment se fait-il que la fonction h (x) produise la courbe vue à gauche de l'image?

Je vois qu'il s'agit d'un tracé de deux variables mais ces deux variables (x1 et x2) sont également des arguments de la fonction elle-même. Je connais les fonctions standard d'une carte variable à une sortie, mais cette fonction ne fait clairement pas cela - et je ne sais pas vraiment pourquoi.

Mon intuition est que la courbe bleu / rose n'est pas vraiment tracée sur ce graphique mais est plutôt une représentation (cercles et X) qui est mappée sur des valeurs dans la dimension suivante (3ème) du graphique. Ce raisonnement est-il défectueux et ai-je juste oublié quelque chose? Merci pour toute perspicacité / intuition.

logistic data-visualization function Sam
la source

8

Faites attention aux étiquettes des axes, notez qu'aucune n'est étiquetée

.

y

$y$

Matthew Drury

3

Que serait une «fonction traditionnelle»?

whuber

@matthewDrury Je comprends cela, et cela explique les X / Os 2D. Je demande d'où vient la courbe tracée

Sam

19

Ceci est un exemple de sur-ajustement sur le cours Coursera sur ML par Andrew Ng dans le cas d'un modèle de classification à deux caractéristiques , dans lequel les vraies valeurs sont symbolisées par et et la limite de décision est précisément adapté à l'ensemble de formation grâce à l'utilisation de termes polynomiaux d'ordre élevé. $(x_1, x_2)$ $\color{red}{\large \times}$ $\color{blue}{\large\circ},$

Le problème qu'il essaie d'illustrer est lié au fait que, bien que la ligne de décision limite (ligne curviligne en bleu) ne classe aucun exemple de manière erronée, sa capacité à généraliser hors de l'ensemble d'apprentissage sera compromise. Andrew Ng poursuit en expliquant que la régularisation peut atténuer cet effet et trace la courbe magenta comme une limite de décision moins serrée à l'ensemble d'entraînement et plus susceptible de se généraliser.

En ce qui concerne votre question spécifique:

Mon intuition est que la courbe bleu / rose n'est pas vraiment tracée sur ce graphique mais est plutôt une représentation (cercles et X) qui est mappée sur des valeurs dans la dimension suivante (3ème) du graphique.

Il n'y a pas de hauteur (troisième dimension): il y a deux catégories, et et la ligne de décision montre comment le modèle les sépare. Dans le modèle plus simple $(\large\times$ $\large\circ),$

h_{θ} (X) = g (θ_{0} + θ_{1} X_{1} + θ_{2} X_{2})

$h_\theta(x)=g\left(\theta_0 + \theta_1 \, x_1 + \theta_2 \, x_2 \right)$

la frontière de décision sera linéaire.

Vous avez peut-être à l'esprit quelque chose comme ça, par exemple:

5 + 2 X - 1,3 X^{2} - 1.2 X^{2} y + 1 X^{2} y^{2} + 3 X^{2} y^{3}

$5 + 2 x - 1.3 x^2 -1.2 x^2 y + 1 x^2 y^2 + 3 x^2 y^3$

$g(\cdot)$ $x_1$ $x_2$ $\large \times$ $\large($ $\large \circ).$ $(1,0)$

$(x_1,x_2)$ $\large \times$ $\large \circ$ $\color{red}{\large \times}$ $\color{blue}{\large \circ}$ $\large \times$ $\large \circ$ cette entrée de blog sur les R-blogueurs ).

Notez l'entrée dans Wikipedia sur la limite de décision :

Dans un problème de classification statistique avec deux classes, une frontière ou une surface de décision est une hypersurface qui divise l'espace vectoriel sous-jacent en deux ensembles, un pour chaque classe. Le classificateur classera tous les points d'un côté de la frontière de décision comme appartenant à une classe et tous ceux de l'autre côté comme appartenant à l'autre classe. Une frontière de décision est la région d'un espace de problème dans laquelle l'étiquette de sortie d'un classificateur est ambiguë.

$∈[0,1]),$

$3$

$y_1 = h_\theta(x)$ $\mathbf W$ $(\Theta)$ $\Theta$

Rejoignant plusieurs neurones, ces hyperplans de séparation peuvent être ajoutés et soustraits pour se retrouver avec des formes capricieuses:

Cela renvoie au théorème d'approximation universel .

Antoni Parellada
la source

1

+1 aime toujours lire votre réponse. Ce serait encore mieux si vous pouvez faire intersecter un plan de décision avec votre tracé. pour montrer certains ci-dessus et certains sous.

Haitao Du

Merci beaucoup pour cela. J'ai toujours l'impression que je manque quelque chose de petit dans la courbe elle-même - est-ce à dire que la frontière de décision n'est pas vraiment "tracée" mais est juste la façon d'Andrew Ng d'indiquer les seuils de valeur de x1 et x2 qui faire l'hypothèse soit × ou ∘? Je pense qu'une partie de ma confusion vient de la façon dont cette courbe pourrait être une fonction en premier lieu, mais je me rends compte maintenant que ce n'est pas le cas.

Sam

1

@AntoniParellada C'est super, je vois la distinction maintenant. Merci beaucoup pour l'aide.

Sam

0

Nous avons des mathématiciens robustes qui répondent à cette question. Je n'ai jamais vu un diagramme comme vous le représenter ici, avec les valeurs des prédicteurs X1 et X2 et la ligne de «limite de décision» séparant les positifs prédits des négatifs prédits. (ou s'agit-il d'une carte des résultats prévus par rapport aux résultats réels?) Mais c'est utile --- tant que vous n'avez que deux prédicteurs d'intérêt que vous souhaitez cartographier.
Il semble que la ligne magenta sépare les positifs prédits des négatifs prédits, tandis que la ligne bleu foncé inclut tous les positifs. C'est généralement le cas en régression logistique: le modèle prédira correctement le résultat pour moins de 100% des cas (et prédira certains faux positifs et / ou faux négatifs).
Il est possible d'exécuter une régression logistique et de demander à la procédure de produire la fonction h (x) pour chaque cas individuel dans l'ensemble de données. Cela produira un score de propension pour chaque sujet, de 0 à 1, qui donnera la probabilité ou la probabilité prédite du résultat positif pour chaque sujet sur la base des variables prédictives de ce sujet, sur la base du modèle de régression logistique utilisant tous les sujets. Ceux qui ont un seuil de propension de 0,5 ou plus devraient avoir le résultat, et ceux en dessous de 0,5 ne devraient pas avoir le résultat. Mais vous pouvez ajuster ce niveau de coupure comme bon vous semble, par exemple pour faire un modèle de prédiction diagnostique de certains résultats en fonction de toutes les variables d'entrée qui sont entrées dans votre analyse de régression logistique. Vous pouvez par exemple définir la coupure à 0,3. Vous pouvez ensuite faire un tableau 2X2 des résultats prévus / réels et déterminer votre sensibilité, spécificité, taux de faux positifs et taux de faux négatifs du modèle en fonction de ce niveau de coupure. Cela fournit plus d'informations et vous libère également de la limite de 2 variables utilisées dans votre graphique. Vous pouvez utiliser autant de prédicteurs que vous pouvez raisonnablement les intégrer dans le modèle tout en créant un tableau 2X2 des résultats réels par rapport aux résultats prévus. Étant donné que la régression logistique utilise des résultats catégoriels (oui-non), chaque cellule du tableau 2X2 est simplement un décompte des sujets qui répondent aux critères de ligne et de colonne. Vous pouvez utiliser autant de prédicteurs que vous pouvez raisonnablement les intégrer dans le modèle tout en créant un tableau 2X2 des résultats réels par rapport aux résultats prévus. Étant donné que la régression logistique utilise des résultats catégoriels (oui-non), chaque cellule du tableau 2X2 est simplement un décompte des sujets qui répondent aux critères de ligne et de colonne. Vous pouvez utiliser autant de prédicteurs que vous pouvez raisonnablement en tenir dans le modèle et toujours créer un tableau 2X2 des résultats réels vs prévus. Étant donné que la régression logistique utilise des résultats catégoriels (oui-non), chaque cellule du tableau 2X2 est simplement un décompte des sujets qui répondent aux critères de ligne et de colonne.
Dans le graphique que vous fournissez, il suppose probablement un seuil de 0,5. Il s'agit de la valeur par défaut courante pour les logiciels. Si vous l'ajustiez plus haut (à 0,65 par exemple), il pourrait inclure tous les O à l'intérieur de la ligne, mais vous auriez également des faux positifs (X qu'il pense devoir être O) qui seraient prédits par le modèle comme ayant le résultat de l'intérêt. (ou ajustez le score de coupure plus bas et ayez plus de faux négatifs).
J'espère que ça aide.

Jerry
la source

Comment la régression logistique peut-elle produire des courbes qui ne sont pas des fonctions traditionnelles?

Réponses: