Quelle est la probabilité que

24

Étant donné points de données, chacun avec caractéristiques, sont étiquetés comme , les autres sont étiquetés comme . Chaque entité prend une valeur de au hasard (distribution uniforme). Quelle est la probabilité qu'il existe un hyperplan pouvant diviser les deux classes?d n / 2 0 n / 2 1 [ 0 , 1 ]nn/20n/21[0,1]

Considérons d'abord le cas le plus simple, c'est-à-dire .=1

Xing Shi
la source
3
C'est une question vraiment intéressante. Je pense que cela pourrait être reformulé pour savoir si les coques convexes des deux classes de points se croisent ou non - bien que je ne sache pas si cela rend le problème plus simple ou non.
Don Walpola
dndd=1n=21limn  Pr(linearly separable)0
Vous devez également préciser si l'hyperplan doit être «plat» (ou s'il peut s'agir, par exemple, d'une parabole dans une situation de type ). Il me semble que la question implique fortement la planéité, mais cela devrait probablement être dit explicitement. 2
gung - Réintégrer Monica
4
@gung Je pense que le mot "hyperplan" implique sans ambiguïté "planéité", c'est pourquoi j'ai édité le titre pour dire "linéairement séparable". Il est clair que tout ensemble de données sans doublons est en principe séparable de manière non linéaire.
amibe dit Réintégrer Monica le
1
@gung IMHO "hyperplane" est un pléonasme. Si vous soutenez que "l'hyperplan" peut être incurvé, alors "plat" peut également être incurvé (dans une métrique appropriée).
amibe dit Reinstate Monica

Réponses:

4

En supposant qu'aucun doublon n'existe dans les données.

Si n+1 , la probabilité est Pr=1 .

Pour d'autres combinaisons de (n,) , voir le graphique suivant:

entrez la description de l'image ici

J'ai généré ce tracé simulant les données d'entrée et de sortie comme spécifié dans l'OP. La séparabilité linéaire a été définie comme l'échec de la convergence dans un modèle de régression logistique, en raison de l'effet Hauck-Donner .

Nous pouvons voir que la probabilité diminue pour augmenter n . En fait, nous avons pu ajuster un modèle reliant n, à p , et voici le résultat:

P(n,)=11+e-(5.82944-4.58261×n+1,37271×-0,0235785×n×)

entrez la description de l'image ici


Code de l'intrigue (en Julia):

using GLM

ds = 10; #number of dimensions to be investigated
ns = 100 #number of examples to be investigated
niter = 1000; #number of iterations per d per n
P = niter * ones(Int64, ds, ns); #starting the number of successes

for d in 1:ds
    for n in (d+1):ns
        p = 0 #0 hits
        for i in 1:niter
            println("Dimensions: $d; Samples: $n; Iteration: $i;")
            try #we will try to catch errors in the logistic glm, these are due to perfect separability
                X = hcat(rand((n,d)), ones(n)); #sampling from uniform plus intercept
                Y = sample(0:1, n)  #sampling a binary outcome
                glm(X, Y, Binomial(), LogitLink())
            catch
                p = p+1 #if we catch an error, increase the count
            end
        end
        P[d,n] = p
    end
end

using Plots

gui(heatmap(P./niter, xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Probability of linear separability"))

(n,)p

probs = P./niter
N = transpose(repmat(1:ns, 1, ds))
D = repmat(1:ds, 1, ns)

fit = glm(hcat(log.(N[:]), D[:], N[:].*D[:], ones(ds*ns)), probs[:], Binomial(), LogitLink())
coef(fit)
#4-element Array{Float64,1}:
# -4.58261
#  1.37271
# -0.0235785
#  5.82944

gui(heatmap(reshape(predict(fit), ds, ns), xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Fit of probability of linear separability"))
Pyromane
la source
+1. Pourquoi se connecter (n) et non n? La frontière jaune-noir me ressemble à une ligne droite sur la figure du haut, mais apparaît courbée sur la deuxième figure. Est-ce peut-être à cause du log (n)? Pas certain.
amibe dit Reinstate Monica
p=1p=0