Quelles sont les différences entre "inférence" et "estimation" dans le contexte de l'apprentissage automatique ?
En tant que débutant, je pense que nous déduisons des variables aléatoires et estimons les paramètres du modèle. Ma compréhension est-elle juste?
Sinon, quelles sont exactement les différences et quand dois-je les utiliser?
De plus, lequel est le synonyme de «apprendre»?
machine-learning
inference
terminology
Sibbs Gambling
la source
la source
Réponses:
L'inférence statistique est faite de l'ensemble des conclusions que l'on peut tirer d'un ensemble de données donné et d'un modèle hypothétique associé, y compris l'ajustement dudit modèle. Pour citer Wikipédia ,
et,
L'estimation n'est qu'un aspect de l'inférence où l'on substitue des paramètres inconnus (associés au modèle hypothétique qui a généré les données) par des solutions optimales basées sur les données (et éventuellement des informations préalables sur ces paramètres). Elle doit toujours être associée à une évaluation de l'incertitude des estimations rapportées, évaluation qui fait partie intégrante de l'inférence.
Le maximum de vraisemblance est un exemple d'estimation, mais il ne couvre pas l'ensemble de l'inférence. Au contraire, l'analyse bayésienne propose une machine d'inférence complète.
la source
Alors que l' estimation en soi vise à fournir des valeurs de paramètres inconnus (par exemple, des coefficients dans la régression logistique ou dans l'hyperplan de séparation dans les machines à vecteurs de support), l'inférence statistique tente d'attacher une mesure d'incertitude et / ou une déclaration de probabilité à les valeurs des paramètres (erreurs standard et intervalles de confiance). Si le modèle supposé par le statisticien est approximativement correct, à condition que les nouvelles données entrantes continuent de se conformer à ce modèle, les déclarations d'incertitude peuvent contenir une part de vérité et fournir une mesure de la fréquence à laquelle vous commettrez des erreurs en utilisant le modèle pour prendre vos décisions.
L'apprentissage automatique se rapproche le plus de la validation croisée lorsque l'échantillon est divisé en parties de formation et de validation, ces dernières indiquant effectivement "si les nouvelles données ressemblent aux anciennes données, mais n'ont aucun lien avec les données qui a été utilisé dans la configuration de mon modèle, puis une mesure réaliste du taux d'erreur est telle ou telle ". Il est dérivé de manière entièrement empirique en exécutant le même modèle sur les données, plutôt que d'essayer d'inférer les propriétés du modèle en faisant des hypothèses statistiques et en impliquant des résultats mathématiques comme le CLT ci-dessus. On peut dire que cela est plus honnête, mais comme il utilise moins d'informations et nécessite donc de plus grandes tailles d'échantillon. En outre, il suppose implicitement que le processus ne change pas,
Bien que l'expression "inférer le postérieur" puisse avoir un sens (je ne suis pas bayésien, je ne peux pas vraiment dire quelle est la terminologie acceptée), je ne pense pas qu'il y ait beaucoup d'implication à faire des hypothèses dans cette étape inférentielle. Toutes les hypothèses bayésiennes sont (1) dans le modèle antérieur et (2) dans le modèle supposé, et une fois qu'elles sont établies, la postérieure suit automatiquement (au moins en théorie via le théorème de Bayes; les étapes pratiques peuvent être helluvalot compliquées, et Sipps Gambling ... excusez-moi, l'échantillonnage de Gibbs peut être un élément relativement facile pour arriver à ce postérieur). Si "inférer le postérieur" se réfère à (1) + (2), alors c'est une saveur d'inférence statistique pour moi. Si (1) et (2) sont indiqués séparément, et ensuite "inférer le postérieur" est autre chose, alors je ne '
la source
Supposons que vous ayez un échantillon représentatif d'une population.
L'inférence est lorsque vous utilisez cet échantillon pour estimer un modèle et indiquer que les résultats peuvent être étendus à l'ensemble de la population, avec une certaine précision. Faire des inférences, c'est faire des hypothèses sur une population en utilisant seulement un échantillon représentatif.
L'estimation consiste à choisir un modèle pour s'adapter à votre échantillon de données et à calculer avec une certaine précision les paramètres de ce modèle. Cela s'appelle estimation parce que vous ne pourrez jamais calculer les vraies valeurs des paramètres puisque vous ne disposez que d'un échantillon de données et non de la population entière.
la source
Ceci est une tentative de donner une réponse à toute personne sans expérience en statistique. Pour ceux qui sont intéressés par plus de détails, il existe de nombreuses références utiles ( comme celle-ci par exemple ) sur le sujet.
Réponse courte:
Longue réponse:
Le terme "estimation" est souvent utilisé pour décrire le processus de recherche d'une estimation pour une valeur inconnue, tandis que le terme "inférence" se réfère souvent à l'inférence statistique, un processus consistant à découvrir des distributions (ou caractéristiques) de variables aléatoires et à les utiliser pour tirer des conclusions.
Pensez à répondre à la question de: Quelle est la taille de la personne moyenne dans mon pays?
Si vous décidez de trouver une estimation, vous pouvez vous promener pendant quelques jours et mesurer les étrangers que vous rencontrez dans la rue (créer un échantillon), puis calculer votre estimation par exemple comme la moyenne de votre échantillon. Vous venez de faire une estimation!
D'un autre côté, vous voudrez peut-être trouver plus qu'une estimation, qui, vous le savez, est un nombre unique et ne peut que se tromper. Vous pourriez viser à répondre à la question avec une certaine confiance, par exemple: Je suis certain à 99% que la taille moyenne d'une personne dans mon pays se situe entre 1,60 m et 1,90 m.
Pour faire une telle affirmation, vous devez estimer la répartition en hauteur des personnes que vous rencontrez et tirer vos conclusions sur la base de ces connaissances - qui sont la base de l'inférence statistique.
La chose cruciale à garder à l'esprit (comme souligné dans la réponse de Xi'an) est que la recherche d'un estimateur fait partie de l'inférence statistique.
la source
Eh bien, il y a des gens de différentes disciplines aujourd'hui qui font leur carrière dans le domaine du ML, et il est probable qu'ils parlent des dialectes légèrement différents.
Cependant, quels que soient les termes qu'ils pourraient utiliser, les concepts sous-jacents sont distincts. Il est donc important de clarifier ces concepts, puis de traduire ces dialectes de la manière que vous préférez.
Par exemple.
Dans PRML par Bishop,
Il semble donc qu'ici
Inference
=Learning
=Estimation
Mais dans d'autres documents, l'inférence peut différer de l'estimation, où
inference
signifieprediction
tout enestimation
signifiant la procédure d'apprentissage des paramètres.la source
Dans le contexte de l'apprentissage automatique, l'inférence se réfère à un acte de découverte des paramètres de variables latentes (cachées) compte tenu de vos observations. Cela comprend également la détermination de la distribution postérieure de vos variables latentes. L'estimation semble être associée à «l'estimation ponctuelle», qui consiste à déterminer les paramètres de votre modèle. Les exemples incluent l'estimation du maximum de vraisemblance. Dans la maximisation des attentes (EM), à l'étape E, vous faites l'inférence. À l'étape M, vous effectuez une estimation des paramètres.
Je pense que j'entends des gens dire "inférer la distribution postérieure" plus que "estimer la distribution postérieure". Ce dernier n'est pas utilisé dans l'inférence exacte habituelle. Il est utilisé, par exemple, dans la propagation des attentes ou dans les Bayes variationnels, où l'inférence d'un postérieur exact est intraitable et des hypothèses supplémentaires sur le postérieur doivent être faites. Dans ce cas, le postérieur déduit est approximatif. Les gens peuvent dire «rapprocher le postérieur» ou «estimer le postérieur».
Tout cela n'est que mon opinion. Ce n'est pas une règle.
la source
Je veux ajouter aux réponses des autres en développant la partie "inférence". Dans le contexte de l'apprentissage automatique, un aspect intéressant de l'inférence est l'estimation de l'incertitude. C'est généralement délicat avec les algorithmes ML: comment mettre un écart-type sur l'étiquette de classification qu'un réseau neuronal ou un arbre de décision crache? Dans les statistiques traditionnelles, les hypothèses de distribution nous permettent de faire des calculs et de comprendre comment évaluer l'incertitude des paramètres. En ML, il peut ne pas y avoir de paramètres, pas d'hypothèses de distribution, ou ni l'un ni l'autre.
Des progrès ont été réalisés sur ces fronts, dont certains très récents (plus récents que les réponses actuelles). Une option est, comme d'autres l'ont mentionné, l'analyse bayésienne où votre postérieur vous donne des estimations d'incertitude. Les méthodes de type bootstrap sont agréables. Stefan Wager et Susan Athey, à Stanford, ont du travail au cours des deux dernières années pour obtenir des inférences pour des forêts aléatoires . De façon analogue, BART est une méthode d'ensemble d'arbres bayésiens qui donne un postérieur dont l'inférence peut être tirée.
la source