L'idée «fondamentale» des statistiques pour estimer les paramètres est le maximum de vraisemblance . Je me demande quelle est l'idée correspondante dans l'apprentissage automatique.
Qn 1. Serait-il juste de dire que l'idée «fondamentale» de l'apprentissage automatique pour estimer les paramètres est: «Fonctions de perte»
[Remarque: J'ai l'impression que les algorithmes d'apprentissage automatique optimisent souvent une fonction de perte et donc la question ci-dessus.]
Qn 2: Existe-t-il une littérature qui tente de combler le fossé entre les statistiques et l'apprentissage automatique?
[Remarque: Peut-être, en reliant les fonctions de perte à la probabilité maximale. (par exemple, OLS est équivalent à la probabilité maximale d'erreurs normalement distribuées, etc.)]
la source
Réponses:
Si les statistiques visent à maximiser la probabilité, alors l'apprentissage automatique consiste à minimiser les pertes. Comme vous ne connaissez pas la perte que vous subirez sur les données futures, vous minimisez une approximation, c'est-à-dire une perte empirique.
Par exemple, si vous avez une tâche de prédiction et que vous êtes évalué par le nombre d'erreurs de classification, vous pouvez entraîner des paramètres afin que le modèle résultant produise le plus petit nombre d'erreurs de classification sur les données d'entraînement. Le "nombre de classifications erronées" (c'est-à-dire la perte 0-1) est une fonction de perte difficile à utiliser car il n'est pas différentiable, vous pouvez donc l'approcher avec un "substitut" fluide. Par exemple, la perte de journal est une limite supérieure à la perte 0-1, vous pouvez donc minimiser cela à la place, et cela se révélera être le même que maximiser la probabilité conditionnelle des données. Avec le modèle paramétrique, cette approche devient équivalente à la régression logistique.
Dans une tâche de modélisation structurée et une approximation log-loss de la perte 0-1, vous obtenez quelque chose de différent de la vraisemblance conditionnelle maximale, vous maximiserez plutôt le produit des vraisemblances marginales (conditionnelles).
Pour obtenir une meilleure approximation de la perte, les gens ont remarqué que le modèle de formation pour minimiser la perte et utiliser cette perte comme estimation de la perte future est une estimation trop optimiste. Ainsi, pour une minimisation plus précise (véritable perte future), ils ajoutent un terme de correction de biais à la perte empirique et minimisent cela, c'est ce que l'on appelle la minimisation structurée du risque.
En pratique, il peut être trop difficile de déterminer le bon terme de correction de biais, vous ajoutez donc une expression "dans l'esprit" du terme de correction de biais, par exemple, la somme des carrés des paramètres. En fin de compte, presque toutes les approches de classification supervisée en apprentissage machine paramétrique finissent par former le modèle pour minimiser les éléments suivants
où est votre modèle paramétré par le vecteur w , i est repris par tous les points de données { x i , y i } , L est une bonne approximation calculatrice de votre perte réelle et P ( w ) est un terme de correction de biais / régularisationm w i {xi,yi} L P(w)
Par exemple, si votre , y ∈ { - 1 , 1 } , une approche typique serait de laisser m ( x ) = signe ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}d y∈{−1,1} m(x)=sign(w⋅x) L(m(x),y)=−log(y×(x⋅w)) , et choisissez q par validation croiséeP(w)=q×(w⋅w) q
la source
Je vais donner une réponse détaillée. Peut fournir plus de citations sur demande, bien que ce ne soit pas vraiment controversé.
Je ne pense pas qu'il y ait un écart entre les domaines, juste de nombreuses approches différentes, toutes se chevauchant dans une certaine mesure. Je ne ressens pas le besoin d'en faire des disciplines systématiques avec des différences et des similitudes bien définies, et étant donné la vitesse à laquelle elles évoluent, je pense que c'est une entreprise condamnée de toute façon.
la source
Je ne peux pas poster un commentaire (l'endroit approprié pour ce commentaire) car je n'ai pas assez de réputation, mais la réponse acceptée comme la meilleure réponse par le propriétaire de la question manque le point.
"Si les statistiques visent à maximiser la probabilité, alors l'apprentissage automatique consiste à minimiser les pertes."
La probabilité est une fonction de perte. Maximiser la vraisemblance équivaut à minimiser une fonction de perte: la déviance, qui est juste -2 fois la fonction log-vraisemblance. De même, trouver une solution des moindres carrés consiste à minimiser la fonction de perte décrivant la somme résiduelle des carrés.
ML et stats utilisent des algorithmes pour optimiser l'ajustement d'une fonction (au sens large) aux données. L'optimisation implique nécessairement de minimiser certaines fonctions de perte.
la source
Il y a une réponse triviale - il n'y a pas d'estimation des paramètres dans l'apprentissage automatique! Nous ne supposons pas que nos modèles sont équivalents à certains modèles d'arrière-plan masqués; nous traitons à la fois la réalité et le modèle comme des boîtes noires et nous essayons de secouer la boîte modèle (former dans la terminologie officielle) afin que sa sortie soit similaire à celle de la boîte de réalité.
Le concept non seulement de vraisemblance mais de sélection du modèle entier basé sur les données d'apprentissage est remplacé par l'optimisation de la précision (quelle que soit la définition; en principe la qualité d'utilisation souhaitée) des données invisibles; cela permet d'optimiser à la fois la précision et le rappel de manière couplée. Cela conduit au concept d'une capacité à généraliser, qui s'obtient de différentes manières selon le type d'apprenant.
La réponse à la deuxième question dépend fortement des définitions; je pense toujours que les statistiques non paramétriques sont quelque chose qui relie les deux.
la source
Je ne pense pas qu'il y ait une idée fondamentale autour de l'estimation des paramètres dans le Machine Learning. La foule ML sera heureuse de maximiser la probabilité ou la postérieure, tant que les algorithmes sont efficaces et prédisent "avec précision". L'accent est mis sur le calcul et les résultats des statistiques sont largement utilisés.
Si vous recherchez des idées fondamentales en général, alors dans la théorie de l'apprentissage informatique, le PAC est central; dans la théorie de l'apprentissage statistique, la minimisation des risques structurels ; et il y a d'autres domaines (par exemple, voir le post Science de la prédiction de John Langford).
Concernant les statistiques de transition / ML, la fracture semble exagérée. J'ai aimé la réponse de Gappy à la question "Deux cultures".
la source
Vous pouvez réécrire un problème de maximisation de vraisemblance comme un problème de minimisation des pertes en définissant la perte comme la probabilité de log négatif. Si la probabilité est un produit de probabilités ou de densités de probabilité indépendantes, la perte sera une somme de termes indépendants, qui peuvent être calculés efficacement. De plus, si les variables stochastiques sont normalement distribuées, le problème de minimisation des pertes correspondant sera un problème des moindres carrés.
S'il est possible de créer un problème de minimisation des pertes en réécrivant une maximisation de vraisemblance, cela devrait être de préférer créer un problème de minimisation des pertes à partir de zéro, car cela entraînera un problème de minimisation des pertes qui est (espérons-le) plus théoriquement fondé et moins ad hoc. Par exemple, les poids, comme les moindres carrés pondérés, pour lesquels vous devez habituellement évaluer les valeurs, émergeront simplement du processus de réécriture du problème d'origine de maximisation de la probabilité et ont déjà (espérons-le) des valeurs optimales.
la source