Dans l'apprentissage informatique, le théorème de la NFL déclare qu'il n'y a pas d'apprenant universel. Pour chaque algorithme d'apprentissage, il existe une distribution qui amène l'apprenant à émettre une hypotesis avec une grande erreur, avec une probabilité élevée (bien qu'il y ait une hypotesis à faible erreur). La conclusion est que pour apprendre, la classe d'hypotesis ou les distributions doivent être restreintes. Dans leur livre "Une théorie probabiliste de la reconnaissance des formes", Devroye et al prouvent le thème suivant pour l'apprenant K-plus proche:
OùSupposons que μ ait une densité. si k → ∞ et k / n → 0 alors pour tout ϵ > 0 , il y a N, st pour tout n > N:P( Rn- R∗> ϵ ) < 2 e x p ( - Crén ϵ2)
R∗est l'erreur de la règle optimale , est la véritable erreur de la sortie K-NN (la probabilité est supérieure à l'ensemble d'apprentissage de taille ), est la mesure de probabilité sur l'espace d'instance \ mathbb {R} ^ d et C_d est une constante ne dépend que de la dimension euclidienne. Par conséquent, nous pouvons nous rapprocher autant que nous le souhaitons de la meilleure hypothèse qui existe (pas la meilleure dans une classe restreinte), sans faire aucune hypothèse sur la distribution. J'essaie donc de comprendre comment ce résultat ne contredit pas le theroem de la NFL? Merci!RnnμRréCré