J'ai des questions sur les notations utilisées dans la section 9.2 Absence de supériorité inhérente de tout classificateur dans la classification des modèles de Duda, Hart et Stork . Permettez-moi d'abord de citer un texte pertinent du livre:
- Pour simplifier, considérons un problème à deux catégories, où l'ensemble d'apprentissage compose de motifs et d'étiquettes de catégorie associées pour générées par la fonction cible inconnue à apprendre, , où .
- Soit le jeu (discret) d'hypothèses ou les jeux de paramètres possibles à apprendre. Une hypothèse particulière pourrait être décrite par des poids quantifiés dans un réseau neuronal, ou des paramètres 0 dans un modèle fonctionnel, ou des ensembles de décisions dans un arbre, et ainsi de suite.
- De plus, est la probabilité antérieure que l'algorithme produise l'hypothèse après l'entraînement; notez que ce n'est pas la probabilité que soit correct.
- Ensuite, indique la probabilité que l'algorithme donnera l' hypothèse quand une formation sur les données . Dans les algorithmes d'apprentissage déterministes tels que le plus proche voisin et les arbres de décision, sera partout nul sauf pour une seule hypothèse . Pour les méthodes stochastiques (telles que les réseaux de neurones formés à partir de poids initiaux aléatoires), ou l'apprentissage Boltzmann stochastique, peut être une large distribution.
- Soit l'erreur pour une fonction de perte nulle ou autre.
L'erreur de classification attendue hors ensemble d'apprentissage lorsque la fonction vraie est et la probabilité pour le ème algorithme d'apprentissage candidat est est donnée park P k ( h ( x ) | D ) E k ( E |
Théorème 9.1. (Pas de déjeuner gratuit) Pour deux algorithmes d'apprentissage et P_2 (h | D) , les éléments suivants sont vrais, indépendamment de la distribution d'échantillonnage P (x) et du nombre n de points d'apprentissage:P 2 ( h | D ) P ( x ) n
Moyenne uniforme sur toutes les fonctions cibles ,
Pour tout ensemble d'entraînement fixe , moyenné uniformément sur ,
La partie 1 dit en fait
La partie 2 dit en fait
Mes questions sont
- Dans la formule de , c'est-à-dire puis-je remplacer par et le déplacer en dehors de la somme , parce que c'est vraiment une distribution de sur étant donné pour le ème algorithme d'apprentissage stochastique?
- Étant donné que le ème algorithme d'apprentissage candidat est une méthode stochastique, pourquoi dans la formule de , il n'y a pas de somme sur , c'est-à-dire ?
En quoi et différents l'un de l'autre?
Est : le taux d'erreur hors formation étant donné un ensemble de formation ?
Est signifie que le taux d'erreur hors formation, en moyenne sur l' ensemble de la formation donnée ensemble une taille de formation ? Si oui, pourquoi la partie 1 du théorème NFL fait-elle une moyenne sur les ensembles d'entraînement en écrivant à nouveau , et pourquoi dans la formule pour , il n'y a pas de moyenne sur tous les ensembles d'entraînement étant donné une taille d'entraînement ?
- Dans la partie 1 du théorème de la NFL, signifie- -il la somme de tous les ensembles d'entraînement avec une taille d'entraînement fixe ?
- Si l'on additionne davantage toutes les valeurs possibles dans de taille d'entraînement dans la partie 1, le résultat est toujours 0, non?
- Dans la formule de , si je change en , c'est-à-dire que n'est pas nécessairement limité à être en dehors de l'ensemble d'apprentissage, les deux parties de Le théorème de la NFL est-il toujours vrai?
- Si la vraie relation entre et n'est pas supposée être une fonction déterministe comme , mais plutôt des distributions conditionnelles , ou une distribution conjointe qui est équivalente à connaissant et (voir aussi ma autre question ), alors je peux changer
pour être (avec l'étrange indiqué dans les parties 1 et 2). Les deux parties du théorème de la NFL sont-elles toujours vraies?
Merci et salutations!
Réponses:
Je répondrai aux questions auxquelles je pense connaître les réponses.
Je ne peux pas commenter 6 et 7.
la source