Les documents de recherche sur l'apprentissage automatique traitent souvent l'apprentissage et l'inférence comme deux tâches distinctes, mais je ne comprends pas très bien quelle est la distinction. Dans ce livre, par exemple, ils utilisent les statistiques bayésiennes pour les deux types de tâches, mais ne motivent pas cette distinction. J'ai plusieurs idées vagues sur ce que cela pourrait être, mais j'aimerais voir une définition solide et peut-être aussi des réfutations ou des extensions de mes idées:
- Différence entre l'inférence des valeurs des variables latentes pour un certain point de données et l'apprentissage d'un modèle approprié pour les données.
- Différence entre l'extraction de variances (inférence) et l'apprentissage des invariances afin de pouvoir extraire des variances (en apprenant la dynamique de l'espace d'entrée / processus / monde).
- L'analogie neuroscientifique pourrait être la potentialisation / dépression à court terme (traces de mémoire) vs la potentialisation / dépression à long terme.
machine-learning
terminology
Lenar Hoyt
la source
la source
Réponses:
Je suis d'accord avec la réponse de Neil G, mais peut-être que cette formulation alternative aide également:
Considérons le réglage d'un modèle de mélange gaussien simple. Ici, nous pouvons considérer les paramètres du modèle comme l'ensemble des composants gaussiens du modèle de mélange (chacun de leurs moyennes et variances, et le poids de chacun dans le mélange).
Étant donné un ensemble de paramètres du modèle, l' inférence est le problème de l'identification de la composante susceptible d'avoir généré un seul exemple donné, généralement sous la forme d'une "responsabilité" pour chaque composante. Ici, les variables latentes ne sont que l'identifiant unique pour quel composant a généré le vecteur donné, et nous déduisons quel composant était susceptible d'avoir été. (Dans ce cas, l'inférence est simple, bien que dans les modèles plus complexes elle devienne assez compliquée.)
L'apprentissage est le processus qui consiste, à partir d'un ensemble d'échantillons du modèle, à identifier les paramètres du modèle (ou une distribution sur les paramètres du modèle) qui correspondent le mieux aux données fournies: choisir les moyennes, les variances et les pondérations des Gaussiens.
L'algorithme d'apprentissage Expectation-Maximization peut être considéré comme effectuant une inférence pour l'ensemble d'apprentissage, puis apprenant les meilleurs paramètres étant donné cette inférence, puis répétant. L'inférence est souvent utilisée dans le processus d'apprentissage de cette manière, mais elle est également d'un intérêt indépendant, par exemple pour choisir quel composant a généré un point de données donné dans un modèle de mélange gaussien, pour décider de l'état caché le plus probable dans un modèle de Markov caché, imputer les valeurs manquantes dans un modèle graphique plus général, ....
la source
L'inférence consiste à choisir une configuration basée sur une seule entrée. Apprendre, c'est choisir des paramètres en fonction de quelques exemples de formation.
Dans le cadre du modèle basé sur l'énergie (une façon de considérer presque toutes les architectures d'apprentissage automatique), l' inférence choisit une configuration pour minimiser une fonction d'énergie tout en maintenant les paramètres fixes; l'apprentissage choisit les paramètres pour minimiser la fonction de perte .
Comme le souligne conjugateprior, d'autres personnes utilisent une terminologie différente pour la même chose. Par exemple Bishop, utilise respectivement «inférence» et «décision» pour signifier apprentissage et inférence. L'inférence causale signifie apprendre. Mais quels que soient les termes que vous décidez, ces deux concepts sont distincts.
L'analogie neurologique est un modèle de mise à feu des neurones est une configuration; un ensemble de forces de liaison sont les paramètres.
la source
Cela ressemble à une confusion de jargon interdisciplinaire classique. L'OP semble utiliser une terminologie semblable aux neurosciences où les deux termes en question peuvent avoir des connotations différentes. Mais comme Cross Validated traite généralement des statistiques et de l'apprentissage de l'usinage, je vais essayer de répondre à la question en fonction de l'utilisation courante de ces termes dans ces domaines.
Dans les statistiques classiques, l'inférence est simplement l'acte de prendre ce que vous savez sur un échantillon et de faire une déclaration mathématique sur la population dont il est (espérons-le) représentatif. D'après le manuel canonique de Casella et Berger (2002): "Le sujet de la théorie des probabilités est le fondement sur lequel toutes les statistiques sont construites ... à travers ces modèles, les statisticiens sont capables de tirer des inférences sur les populations, inférences basées sur l'examen de seulement une partie de l'ensemble ". Ainsi, en statistique, l'inférence est spécifiquement liée aux valeurs de p, aux statistiques de test et aux distributions d'échantillonnage, etc.
En ce qui concerne l'apprentissage, je pense que ce tableau de Wasserman's All of Statistics (2003) pourrait être utile:
la source
Il est étrange que personne d'autre n'ait mentionné cela, mais vous ne pouvez avoir d'inférence que dans les cas où vous avez une distribution de probabilité. Ici pour citer Wiki, qui cite le dictionnaire Oxford:
L'inférence statistique est le processus d'utilisation de l'analyse des données pour déduire les propriétés d'une distribution de probabilité sous-jacente (Oxford Dictionary of Statistics)
https://en.wikipedia.org/wiki/Statistical_inference
Dans le cas de réseaux neuronaux traditionnels, de k-NN ou de SVM vanille, vous n'avez pas de densité de probabilité à estimer, ni d'hypothèses sur une densité, donc, aucune inférence statistique là-bas. Seulement formation / apprentissage. Cependant, pour la plupart (toutes?) Des procédures statistiques, vous pouvez utiliser à la fois l'inférence ET l'apprentissage, car ces procédures possèdent certaines hypothèses sur la distribution de la population en question.
la source