Quelle est la différence entre l'apprentissage et l'inférence?

20

Les documents de recherche sur l'apprentissage automatique traitent souvent l'apprentissage et l'inférence comme deux tâches distinctes, mais je ne comprends pas très bien quelle est la distinction. Dans ce livre, par exemple, ils utilisent les statistiques bayésiennes pour les deux types de tâches, mais ne motivent pas cette distinction. J'ai plusieurs idées vagues sur ce que cela pourrait être, mais j'aimerais voir une définition solide et peut-être aussi des réfutations ou des extensions de mes idées:

  • Différence entre l'inférence des valeurs des variables latentes pour un certain point de données et l'apprentissage d'un modèle approprié pour les données.
  • Différence entre l'extraction de variances (inférence) et l'apprentissage des invariances afin de pouvoir extraire des variances (en apprenant la dynamique de l'espace d'entrée / processus / monde).
  • L'analogie neuroscientifique pourrait être la potentialisation / dépression à court terme (traces de mémoire) vs la potentialisation / dépression à long terme.
Lenar Hoyt
la source
4
Je ne sais pas si cela aide, mais dans les statistiques, une distinction est entre si vous voulez considérer l'apprentissage comme une inférence (principalement Bayes) ou comme une estimation (principalement Frequentist). Pour les premiers, tout savoir - variables latentes, paramètres, prédictions, modèles - est une inférence (qui renvoie une distribution). Pour ces derniers, certains problèmes d'apprentissage peuvent être une inférence et d'autres un problème d'estimation (qui lui renvoie une estimation et une plage d'incertitude motivée par l'échantillonnage).
conjugateprior
5
"Learning" n'est qu'une métaphore évocatrice du processus de formation d'un algorithme d'apprentissage automatique. Je ne pense pas qu'il y ait beaucoup à comprendre ici.
Sycorax dit Réintégrer Monica le
1
@Winks Avez - vous lu la question liée à tous ? Aucune des réponses ne rend explicite la distinction que je demande.
Lenar Hoyt du
1
@conjugateprior En apprentissage automatique, personne ne dirait que «tout apprendre - variables latentes, paramètres, prévisions, modèles - est une inférence». L'apprentissage et l'inférence sont considérés comme totalement séparés, même s'ils peuvent tous deux produire des distributions.
Neil G

Réponses:

11

Je suis d'accord avec la réponse de Neil G, mais peut-être que cette formulation alternative aide également:

Considérons le réglage d'un modèle de mélange gaussien simple. Ici, nous pouvons considérer les paramètres du modèle comme l'ensemble des composants gaussiens du modèle de mélange (chacun de leurs moyennes et variances, et le poids de chacun dans le mélange).

Étant donné un ensemble de paramètres du modèle, l' inférence est le problème de l'identification de la composante susceptible d'avoir généré un seul exemple donné, généralement sous la forme d'une "responsabilité" pour chaque composante. Ici, les variables latentes ne sont que l'identifiant unique pour quel composant a généré le vecteur donné, et nous déduisons quel composant était susceptible d'avoir été. (Dans ce cas, l'inférence est simple, bien que dans les modèles plus complexes elle devienne assez compliquée.)

L'apprentissage est le processus qui consiste, à partir d'un ensemble d'échantillons du modèle, à identifier les paramètres du modèle (ou une distribution sur les paramètres du modèle) qui correspondent le mieux aux données fournies: choisir les moyennes, les variances et les pondérations des Gaussiens.

L'algorithme d'apprentissage Expectation-Maximization peut être considéré comme effectuant une inférence pour l'ensemble d'apprentissage, puis apprenant les meilleurs paramètres étant donné cette inférence, puis répétant. L'inférence est souvent utilisée dans le processus d'apprentissage de cette manière, mais elle est également d'un intérêt indépendant, par exemple pour choisir quel composant a généré un point de données donné dans un modèle de mélange gaussien, pour décider de l'état caché le plus probable dans un modèle de Markov caché, imputer les valeurs manquantes dans un modèle graphique plus général, ....

Dougal
la source
1
Et une petite mise en garde que l'on peut choisir de décomposer les choses en apprentissage et en inférence de cette façon, mais on peut aussi choisir de faire tout le reste
conjugateprior
Pourquoi tant de lignes? Je veux voir une réponse simple qui les différencie en une à deux phrases. De plus, tout le monde ne connaît pas les GMM ou les EM.
nbro
9

L'inférence consiste à choisir une configuration basée sur une seule entrée. Apprendre, c'est choisir des paramètres en fonction de quelques exemples de formation.

Dans le cadre du modèle basé sur l'énergie (une façon de considérer presque toutes les architectures d'apprentissage automatique), l' inférence choisit une configuration pour minimiser une fonction d'énergie tout en maintenant les paramètres fixes; l'apprentissage choisit les paramètres pour minimiser la fonction de perte .

Comme le souligne conjugateprior, d'autres personnes utilisent une terminologie différente pour la même chose. Par exemple Bishop, utilise respectivement «inférence» et «décision» pour signifier apprentissage et inférence. L'inférence causale signifie apprendre. Mais quels que soient les termes que vous décidez, ces deux concepts sont distincts.

L'analogie neurologique est un modèle de mise à feu des neurones est une configuration; un ensemble de forces de liaison sont les paramètres.

Neil G
la source
@mcb Je ne sais toujours pas ce que vous entendez par "variances". "Invariances" n'est même pas un mot dans le dictionnaire. Oui, il existe de nombreux algorithmes d'apprentissage qui reposent sur une configuration inférée comme EM décrite dans la réponse de Dougal.
Neil G
@mcb Je ne comprends pas non plus vos questions; il serait peut-être utile de spécifier un exemple de modèle et d'être précis sur la distribution / variances / invariants (?) dont vous parlez.
Dougal
Merci pour vos réponses. J'ai peut-être mal compris quelque chose.
Lenar Hoyt du
@NeilG Je crois que cette terminologie est surtout utilisé dans le travail de vision ML où les décisions de classification devraient être « invariant » à la traduction de l' objet, rotation, etc. redimensionnant Vous ne trouvez pas une bonne référence courte, mais il y a ceci: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
conjugateprior
@conjugateprior J'avais le sentiment que c'était là où il voulait en venir, mais je voulais voir s'il clarifierait sa question.
Neil G
4

Cela ressemble à une confusion de jargon interdisciplinaire classique. L'OP semble utiliser une terminologie semblable aux neurosciences où les deux termes en question peuvent avoir des connotations différentes. Mais comme Cross Validated traite généralement des statistiques et de l'apprentissage de l'usinage, je vais essayer de répondre à la question en fonction de l'utilisation courante de ces termes dans ces domaines.

Dans les statistiques classiques, l'inférence est simplement l'acte de prendre ce que vous savez sur un échantillon et de faire une déclaration mathématique sur la population dont il est (espérons-le) représentatif. D'après le manuel canonique de Casella et Berger (2002): "Le sujet de la théorie des probabilités est le fondement sur lequel toutes les statistiques sont construites ... à travers ces modèles, les statisticiens sont capables de tirer des inférences sur les populations, inférences basées sur l'examen de seulement une partie de l'ensemble ". Ainsi, en statistique, l'inférence est spécifiquement liée aux valeurs de p, aux statistiques de test et aux distributions d'échantillonnage, etc.

En ce qui concerne l'apprentissage, je pense que ce tableau de Wasserman's All of Statistics (2003) pourrait être utile:

entrez la description de l'image ici

Zoë Clark
la source
Cela est en désaccord avec de nombreux autres manuels, y compris le livre de Bishop mentionné dans les commentaires. La classification est une sorte d'apprentissage supervisé lorsque les variables cibles sont des catégories. Le mot «estimation» seul est vague: nous entendons généralement «estimation de la densité» ou «estimation des paramètres» ou «estimation séquentielle» ou «estimation du maximum de vraisemblance».
Neil G
1
De plus, Bayes net n'est pas seulement un graphique acyclique dirigé! C'est une sorte de dag dont les nœuds représentent des propositions et dont les arêtes représentent des dépendances probabilistes. Il spécifie les relations d'indépendance conditionnelle.
Neil G
1
@NeilG Tout à fait. La traduction statistique la plus proche serait probablement "modèle d'équation structurelle"
conjugateprior
2
Et dans une quantité consternante de statistiques, il devrait y avoir deux lignes sur les données: CS: données de formation, Statistiques: données. CS: données de test, statistiques: wut?
conjugateprior
Stat 101: wut = un autre échantillon (espérons-le aléatoire) de votre population ...
Zoë Clark
-1

Il est étrange que personne d'autre n'ait mentionné cela, mais vous ne pouvez avoir d'inférence que dans les cas où vous avez une distribution de probabilité. Ici pour citer Wiki, qui cite le dictionnaire Oxford:

L'inférence statistique est le processus d'utilisation de l'analyse des données pour déduire les propriétés d'une distribution de probabilité sous-jacente (Oxford Dictionary of Statistics)

https://en.wikipedia.org/wiki/Statistical_inference

Dans le cas de réseaux neuronaux traditionnels, de k-NN ou de SVM vanille, vous n'avez pas de densité de probabilité à estimer, ni d'hypothèses sur une densité, donc, aucune inférence statistique là-bas. Seulement formation / apprentissage. Cependant, pour la plupart (toutes?) Des procédures statistiques, vous pouvez utiliser à la fois l'inférence ET l'apprentissage, car ces procédures possèdent certaines hypothèses sur la distribution de la population en question.

SWIM S.
la source
C'est faux. Quoi qu'il en soit, vous pouvez interpréter les réseaux de neurones comme produisant une distribution si vous le souhaitez. Voir, par exemple, Amari 1998.
Neil G
Ce n'est pas faux, ou précisez. Vous POUVEZ interpréter, mais à l'origine il n'y a pas une telle interprétation.
SWIM S.19
C'est faux car les gens utilisent le terme d'inférence avec des modèles comme les auto-initiés.
Neil G
Alors, est-ce mal parce qu'un groupe de personnes utilise le terme de manière incorrecte? Ou parce qu'ils ont une interprétation probabiliste pour leurs NN (je ne connais pas très bien les auto-encodeurs)? J'ai logiquement justifié pourquoi un terme est différent de l'autre. Donc, étant donné la définition ci-dessus, je vois que ceux qui utilisent le terme inférence avec NN, k-NN ou SVM (sauf avec une interprétation probabiliste) abusent à peu près de la notation.
SWIM