Inférence vs estimation?

30

Quelles sont les différences entre "inférence" et "estimation" dans le contexte de l'apprentissage automatique ?

En tant que débutant, je pense que nous déduisons des variables aléatoires et estimons les paramètres du modèle. Ma compréhension est-elle juste?

Sinon, quelles sont exactement les différences et quand dois-je les utiliser?

De plus, lequel est le synonyme de «apprendre»?

Sibbs Gambling
la source
J'ai trouvé cette réponse sur Quora , et je ne suis pas sûr de son exactitude.
Sibbs Gambling
4
L'apprentissage automatique n'est que des statistiques automatisées (à mon avis), donc je ne suis pas sûr que les définitions seraient différentes dans les statistiques de manière plus générale
shadowtalker
5
La littérature statistique canonique établit une distinction claire et cohérente entre l' inférence des propriétés d'un modèle sous-jacent présumé (dans un cadre théorique de décision) et la prédiction des valeurs de variables aléatoires. L'estimation est un type particulier d'inférence. Ceux-ci peuvent être comparés à l'exploration et, dans une certaine mesure, aux tests d'hypothèses. «Apprendre», en tant que verbe transitif, n'a pas de signification statistique standard.
whuber
@whuber, une suggestion idiote - en faire une réponse? ..
StasK
2
@StasK Ce serait - sauf qu'il ne répond pas à la question, qui pose des questions sur l'apprentissage automatique plutôt que sur les statistiques. J'ai offert ce commentaire dans le but de fournir un petit contexte à partir duquel comprendre et évaluer les réponses ML, d'autant plus que certaines de ces réponses semblent faire des distinctions non standard entre l'inférence, l'estimation et la prédiction.
whuber

Réponses:

30

L'inférence statistique est faite de l'ensemble des conclusions que l'on peut tirer d'un ensemble de données donné et d'un modèle hypothétique associé, y compris l'ajustement dudit modèle. Pour citer Wikipédia ,

L'inférence est l'acte ou le processus consistant à tirer des conclusions logiques de prémisses connues ou supposées vraies.

et,

L'inférence statistique utilise les mathématiques pour tirer des conclusions en présence d'incertitude.

L'estimation n'est qu'un aspect de l'inférence où l'on substitue des paramètres inconnus (associés au modèle hypothétique qui a généré les données) par des solutions optimales basées sur les données (et éventuellement des informations préalables sur ces paramètres). Elle doit toujours être associée à une évaluation de l'incertitude des estimations rapportées, évaluation qui fait partie intégrante de l'inférence.

Le maximum de vraisemblance est un exemple d'estimation, mais il ne couvre pas l'ensemble de l'inférence. Au contraire, l'analyse bayésienne propose une machine d'inférence complète.

Xi'an
la source
4
+1 en particulier pour "Il devrait toujours être associé à une évaluation de l'incertitude des estimations rapportées", ce qui n'est souvent pas le cas dans l'apprentissage automatique et la "science des données". La simple comparaison avec un ensemble de données connu n'est pas cela.
Momo
4

Alors que l' estimation en soi vise à fournir des valeurs de paramètres inconnus (par exemple, des coefficients dans la régression logistique ou dans l'hyperplan de séparation dans les machines à vecteurs de support), l'inférence statistique tente d'attacher une mesure d'incertitude et / ou une déclaration de probabilité à les valeurs des paramètres (erreurs standard et intervalles de confiance). Si le modèle supposé par le statisticien est approximativement correct, à condition que les nouvelles données entrantes continuent de se conformer à ce modèle, les déclarations d'incertitude peuvent contenir une part de vérité et fournir une mesure de la fréquence à laquelle vous commettrez des erreurs en utilisant le modèle pour prendre vos décisions.

μσ2μσ2/n

L'apprentissage automatique se rapproche le plus de la validation croisée lorsque l'échantillon est divisé en parties de formation et de validation, ces dernières indiquant effectivement "si les nouvelles données ressemblent aux anciennes données, mais n'ont aucun lien avec les données qui a été utilisé dans la configuration de mon modèle, puis une mesure réaliste du taux d'erreur est telle ou telle ". Il est dérivé de manière entièrement empirique en exécutant le même modèle sur les données, plutôt que d'essayer d'inférer les propriétés du modèle en faisant des hypothèses statistiques et en impliquant des résultats mathématiques comme le CLT ci-dessus. On peut dire que cela est plus honnête, mais comme il utilise moins d'informations et nécessite donc de plus grandes tailles d'échantillon. En outre, il suppose implicitement que le processus ne change pas,

Bien que l'expression "inférer le postérieur" puisse avoir un sens (je ne suis pas bayésien, je ne peux pas vraiment dire quelle est la terminologie acceptée), je ne pense pas qu'il y ait beaucoup d'implication à faire des hypothèses dans cette étape inférentielle. Toutes les hypothèses bayésiennes sont (1) dans le modèle antérieur et (2) dans le modèle supposé, et une fois qu'elles sont établies, la postérieure suit automatiquement (au moins en théorie via le théorème de Bayes; les étapes pratiques peuvent être helluvalot compliquées, et Sipps Gambling ... excusez-moi, l'échantillonnage de Gibbs peut être un élément relativement facile pour arriver à ce postérieur). Si "inférer le postérieur" se réfère à (1) + (2), alors c'est une saveur d'inférence statistique pour moi. Si (1) et (2) sont indiqués séparément, et ensuite "inférer le postérieur" est autre chose, alors je ne '

StasK
la source
2

Supposons que vous ayez un échantillon représentatif d'une population.

L'inférence est lorsque vous utilisez cet échantillon pour estimer un modèle et indiquer que les résultats peuvent être étendus à l'ensemble de la population, avec une certaine précision. Faire des inférences, c'est faire des hypothèses sur une population en utilisant seulement un échantillon représentatif.

L'estimation consiste à choisir un modèle pour s'adapter à votre échantillon de données et à calculer avec une certaine précision les paramètres de ce modèle. Cela s'appelle estimation parce que vous ne pourrez jamais calculer les vraies valeurs des paramètres puisque vous ne disposez que d'un échantillon de données et non de la population entière.

lorelai
la source
"L'inférence est lorsque vous utilisez un échantillon pour estimer un modèle" (et donc pour estimer ses paramètres). "L'estimation, c'est quand vous calculez ... les paramètres du modèle". Voyez-vous une différence?
nbro
2

Ceci est une tentative de donner une réponse à toute personne sans expérience en statistique. Pour ceux qui sont intéressés par plus de détails, il existe de nombreuses références utiles ( comme celle-ci par exemple ) sur le sujet.

Réponse courte:

->

->

Longue réponse:

Le terme "estimation" est souvent utilisé pour décrire le processus de recherche d'une estimation pour une valeur inconnue, tandis que le terme "inférence" se réfère souvent à l'inférence statistique, un processus consistant à découvrir des distributions (ou caractéristiques) de variables aléatoires et à les utiliser pour tirer des conclusions.

Pensez à répondre à la question de: Quelle est la taille de la personne moyenne dans mon pays?

Si vous décidez de trouver une estimation, vous pouvez vous promener pendant quelques jours et mesurer les étrangers que vous rencontrez dans la rue (créer un échantillon), puis calculer votre estimation par exemple comme la moyenne de votre échantillon. Vous venez de faire une estimation!

D'un autre côté, vous voudrez peut-être trouver plus qu'une estimation, qui, vous le savez, est un nombre unique et ne peut que se tromper. Vous pourriez viser à répondre à la question avec une certaine confiance, par exemple: Je suis certain à 99% que la taille moyenne d'une personne dans mon pays se situe entre 1,60 m et 1,90 m.

Pour faire une telle affirmation, vous devez estimer la répartition en hauteur des personnes que vous rencontrez et tirer vos conclusions sur la base de ces connaissances - qui sont la base de l'inférence statistique.

La chose cruciale à garder à l'esprit (comme souligné dans la réponse de Xi'an) est que la recherche d'un estimateur fait partie de l'inférence statistique.

sens à sens
la source
1
"Quelle sera la taille de la prochaine personne au hasard" est une question de prédiction statistique plutôt que d'estimation. "Quelle est la fourchette des 95% moyens de toutes les personnes" est une estimation (intervalle). Bien que les deux questions (et les méthodes de solution) soient étroitement liées et semblent similaires, elles sont différentes à certains égards importants - et reçoivent également des réponses différentes. La différence provient du caractère aléatoire de la personne suivante dans la première question, qui n'est pas présent dans la deuxième question.
whuber
Je suis d'accord que les exemples ne sont pas idéaux. Étant donné la nature de la question, j'essayais de donner des exemples qu'un non-statisticien connaîtrait très bien. Ma réponse la plus simple à «estimation» serait qu'elle implique l'ajustement des paramètres d'un modèle statistique, mais j'introduirais ensuite les termes «ajustement» et «modèle statistique», qui nécessiteraient tous deux une explication. À la fin de la journée, alors qu'une prédiction telle que décrite dans l'exemple est prospective, je la considérerais quand même comme une estimation (ponctuelle).
moyen à sens
Modification de l'exemple pour ne pas contenir de prédiction.
moyen à sens
1

Eh bien, il y a des gens de différentes disciplines aujourd'hui qui font leur carrière dans le domaine du ML, et il est probable qu'ils parlent des dialectes légèrement différents.

Cependant, quels que soient les termes qu'ils pourraient utiliser, les concepts sous-jacents sont distincts. Il est donc important de clarifier ces concepts, puis de traduire ces dialectes de la manière que vous préférez.

Par exemple.

Dans PRML par Bishop,

p(Ck|X)

Il semble donc qu'ici Inference= Learning=Estimation

Mais dans d'autres documents, l'inférence peut différer de l'estimation, où inferencesignifie predictiontout en estimationsignifiant la procédure d'apprentissage des paramètres.

Response777
la source
0

Dans le contexte de l'apprentissage automatique, l'inférence se réfère à un acte de découverte des paramètres de variables latentes (cachées) compte tenu de vos observations. Cela comprend également la détermination de la distribution postérieure de vos variables latentes. L'estimation semble être associée à «l'estimation ponctuelle», qui consiste à déterminer les paramètres de votre modèle. Les exemples incluent l'estimation du maximum de vraisemblance. Dans la maximisation des attentes (EM), à l'étape E, vous faites l'inférence. À l'étape M, vous effectuez une estimation des paramètres.

Je pense que j'entends des gens dire "inférer la distribution postérieure" plus que "estimer la distribution postérieure". Ce dernier n'est pas utilisé dans l'inférence exacte habituelle. Il est utilisé, par exemple, dans la propagation des attentes ou dans les Bayes variationnels, où l'inférence d'un postérieur exact est intraitable et des hypothèses supplémentaires sur le postérieur doivent être faites. Dans ce cas, le postérieur déduit est approximatif. Les gens peuvent dire «rapprocher le postérieur» ou «estimer le postérieur».

Tout cela n'est que mon opinion. Ce n'est pas une règle.

wij
la source
0

Je veux ajouter aux réponses des autres en développant la partie "inférence". Dans le contexte de l'apprentissage automatique, un aspect intéressant de l'inférence est l'estimation de l'incertitude. C'est généralement délicat avec les algorithmes ML: comment mettre un écart-type sur l'étiquette de classification qu'un réseau neuronal ou un arbre de décision crache? Dans les statistiques traditionnelles, les hypothèses de distribution nous permettent de faire des calculs et de comprendre comment évaluer l'incertitude des paramètres. En ML, il peut ne pas y avoir de paramètres, pas d'hypothèses de distribution, ou ni l'un ni l'autre.

Des progrès ont été réalisés sur ces fronts, dont certains très récents (plus récents que les réponses actuelles). Une option est, comme d'autres l'ont mentionné, l'analyse bayésienne où votre postérieur vous donne des estimations d'incertitude. Les méthodes de type bootstrap sont agréables. Stefan Wager et Susan Athey, à Stanford, ont du travail au cours des deux dernières années pour obtenir des inférences pour des forêts aléatoires . De façon analogue, BART est une méthode d'ensemble d'arbres bayésiens qui donne un postérieur dont l'inférence peut être tirée.

Sheridan Grant
la source