Récemment, j'ai pris conscience des méthodes «sans vraisemblance» utilisées dans la littérature. Cependant, je ne sais pas exactement ce que signifie qu'une méthode d'inférence ou d'optimisation est sans vraisemblance .
Dans l'apprentissage automatique, l'objectif est généralement de maximiser la probabilité que certains paramètres correspondent à une fonction, par exemple les poids sur un réseau neuronal.
Alors, quelle est exactement la philosophie d'une approche sans vraisemblance et pourquoi les réseaux contradictoires tels que les GAN entrent-ils dans cette catégorie?
Plus précisément, [les récentes] méthodes sans vraisemblance sont une reformulation des algorithmes ABC, où ABC représente le calcul bayésien approximatif . Cela vise à couvrir les méthodes d'inférence qui ne nécessitent pas l'utilisation d'une fonction de vraisemblance de forme fermée, mais qui visent tout de même à étudier un modèle statistique spécifique. Ils sont exempts de la difficulté de calcul liée à la probabilité, mais pas du modèle qui produit cette probabilité. Voir par exemple
la source
Pour ajouter à la litanie de réponses, les statistiques asymptotiques sont en fait exemptes de vraisemblances.
Une «vraisemblance» fait ici référence au modèle de probabilité des données . Je m'en fiche peut-être. Mais je peux trouver un estimateur simple, comme la moyenne, qui est un résumé adéquat des données et je veux effectuer une inférence sur la moyenne de la distribution (en supposant qu'elle existe, ce qui est souvent une hypothèse raisonnable).
D'après le théorème de la limite centrale, la moyenne a une distribution normale approximative dans le grand N lorsque la variance existe également. Je peux créer des tests cohérents (la puissance passe à 1 lorsque N va à l'infini lorsque null est faux) qui sont de la bonne taille. Bien que je dispose d'un modèle de probabilité (qui est faux) pour la distribution d'échantillonnage de la moyenne dans des tailles d'échantillon finies, je peux obtenir une inférence valide et une estimation non biaisée pour augmenter mon «résumé utile des données» (la moyenne).
Il convient de noter que les tests basés sur l'IC à 95% pour la médiane (c'est-à-dire l'option 6 dans la réponse de @ kjetilbhalvorsen) s'appuient également sur le théorème de la limite centrale pour montrer qu'ils sont cohérents. Il n'est donc pas fou de considérer le test T simple comme un test "non paramétrique" ou "non basé sur la vraisemblance".
la source
la source