Étant donné points de données, chacun avec caractéristiques, sont étiquetés comme , les autres sont étiquetés comme . Chaque entité prend une valeur de au hasard (distribution uniforme). Quelle est la probabilité qu'il existe un hyperplan pouvant diviser les deux classes?d n / 2 0 n / 2 1 [ 0 , 1 ]
Considérons d'abord le cas le plus simple, c'est-à-dire .
Réponses:
En supposant qu'aucun doublon n'existe dans les données.
Sin ≤ d+ 1 , la probabilité est Pr = 1 .
Pour d'autres combinaisons de( n , d) , voir le graphique suivant:
J'ai généré ce tracé simulant les données d'entrée et de sortie comme spécifié dans l'OP. La séparabilité linéaire a été définie comme l'échec de la convergence dans un modèle de régression logistique, en raison de l'effet Hauck-Donner .
Nous pouvons voir que la probabilité diminue pour augmentern . En fait, nous avons pu ajuster un modèle reliant n , d à p , et voici le résultat:
Code de l'intrigue (en Julia):
la source