Même si toutes les images du jeu de données MNIST sont centrées, avec une échelle similaire et face visible sans rotations, elles présentent une variation importante de l'écriture manuscrite qui me laisse perplexe sur la précision avec laquelle un modèle linéaire atteint une précision de classification aussi élevée.
Dans la mesure où je suis en mesure de visualiser, compte tenu de la variation importante de l'écriture manuscrite, les chiffres doivent être linéairement indissociables dans un espace à 784 dimensions, c'est-à-dire qu'il doit exister une petite limite non linéaire complexe (mais pas très complexe) séparant les différents chiffres. , semblable à l'exemple bien cité de où les classes positives et négatives ne peuvent être séparées par aucun classifieur linéaire. Il me semble déconcertant que la régression logistique multi-classes produise une telle précision avec des caractéristiques entièrement linéaires (aucune caractéristique polynomiale).
À titre d'exemple, étant donné n'importe quel pixel de l'image, différentes variations manuscrites des chiffres et peuvent éclairer ou non ce pixel. Par conséquent, avec un ensemble de poids appris, chaque pixel peut donner à un chiffre l’apparence d’un ou d’un . Seule une combinaison de valeurs de pixels doit permettre de dire si un chiffre est un ou un . Cela est vrai pour la plupart des paires de chiffres. Alors, comment la régression logistique, qui base aveuglément sa décision indépendamment sur toutes les valeurs de pixels (sans aucune dépendance entre pixels), est-elle capable d’atteindre une telle précision?
Je sais que je me trompe quelque part ou que je surestime quelque peu la variation des images. Cependant, ce serait formidable si quelqu'un pouvait m'aider avec une intuition sur la façon dont les chiffres sont «presque» séparables linéairement.
la source
Réponses:
tl; dr Même s’il s’agit d’un jeu de données de classification d’images, cela reste une tâche très facile , pour laquelle on peut facilement trouver un mappage direct des entrées aux prévisions.
Répondre:
C'est une question très intéressante et, grâce à la simplicité de la régression logistique, vous pouvez réellement trouver la réponse.
Notez, encore une fois, que ce sont les poids .
Regardez maintenant l'image ci-dessus et concentrez-vous sur les deux premiers chiffres (c'est-à-dire zéro et un). Les poids bleus signifient que l'intensité de ce pixel contribue beaucoup à cette classe et les valeurs rouges signifient qu'il contribue négativement.
Grâce à cela, vous pouvez voir que la régression logistique a de très bonnes chances d’obtenir beaucoup d’images, c’est pourquoi elle est si performante.
Le code pour reproduire le chiffre ci-dessus est un peu daté, mais ici vous allez:
la source