Comment définir rigoureusement la probabilité?

30

La probabilité pourrait être définie de plusieurs façons, par exemple:

  • la fonction de qui mappe à ie .LΘ×X(θ,x)L(θx)L:Θ×XR

  • la fonction aléatoireL(X)

  • on pourrait aussi considérer que la vraisemblance n'est que la vraisemblance "observée"L(xobs)

  • en pratique, la vraisemblance n'apporte des informations sur qu'à une constante multiplicative, nous pourrions donc considérer la vraisemblance comme une classe d'équivalence de fonctions plutôt que comme une fonctionθ

Une autre question se pose lorsque l'on envisage un changement de paramétrage: si est la nouvelle paramétrisation que nous désignons couramment par la probabilité sur et ce n'est pas l'évaluation de la fonction précédente à mais à . Il s'agit d'une notation abusive mais utile qui pourrait causer des difficultés aux débutants si elle n'est pas soulignée.ϕ=θ2L(ϕx)ϕL(x)θ2ϕ

Quelle est votre définition rigoureuse préférée de la probabilité?

De plus, comment appelez-vous ? Je dis habituellement quelque chose comme "la probabilité sur lorsque est observé".L(θx)θx

EDIT: Au vu de certains commentaires ci-dessous, je me rends compte que j'aurais dû préciser le contexte. Je considère un modèle statistique donné par une famille paramétrique de densités par rapport à une mesure dominante, avec chaque défini sur l'espace d'observation . Par conséquent, nous définissons et la question est "qu'est-ce que ?" (la question ne porte pas sur une définition générale de la probabilité){f(θ),θΘ}f(θ)XL(θx)=f(xθ)L

Stéphane Laurent
la source
2
(1) Parce que pour tout θ , je crois que même la constante de L est définie. (2) Si vous pensez à des paramètres comme ϕ, ils ne seront jamais observés. Pourquoi ne pas simplement dire "probabilité de θ donnéeL(θ|x)dx=1θLϕ et sont simplement des coordonnées pour une variété de distributions, alors le changement de paramétrage n'a pas de signification mathématique intrinsèque; c'est simplement un changement de description. (3) Les anglophones natifs diraient plus naturellement «probabilité de θ » plutôt que «on». (4) La clause "lorsque x est observé" présente des difficultés philosophiques, car la plupart des xθ θxxθ »? x
whuber
1
@whuber: Pour (1), je ne pense pas que la constante soit bien définie. Voir le livre de ET Jaynes où il écrit: "qu'une probabilité n'est pas une probabilité parce que sa normalisation est arbitraire."
Neil G
3
Vous semblez confondre deux types de normalisation, Neil: Jaynes faisait référence à la normalisation par intégration sur , pas x .θx
whuber
1
@whuber: Je ne pense pas qu'un facteur d'échelle importera pour la borne de Cramer-Rao parce que changer ajoute une quantité constante à la vraisemblance logarithmique, qui disparaît ensuite lorsque la dérivée partielle est prise. k
Neil G
1
Je suis d'accord avec Neil, je ne vois aucune application où la constante joue un rôle
Stéphane Laurent

Réponses:

13

Votre troisième élément est celui que j'ai vu le plus souvent utilisé comme définition rigoureuse.

Les autres sont également intéressants (+1). En particulier, le premier est attrayant, avec la difficulté que la taille de l'échantillon ne soit pas (encore) définie, il est plus difficile de définir l'ensemble "de".

Pour moi, l'intuition fondamentale de la vraisemblance est qu'elle est fonction du modèle + de ses paramètres, et non d'une fonction des variables aléatoires (également un point important pour l'enseignement). Je m'en tiendrai donc à la troisième définition.

La source de l'abus de notation est que l'ensemble "de" de la probabilité est implicite, ce qui n'est généralement pas le cas pour des fonctions bien définies. Ici, l'approche la plus rigoureuse consiste à se rendre compte qu'après la transformation, la probabilité se rapporte à un autre modèle. C'est l'équivalent du premier, mais encore un autre modèle. La notation de vraisemblance doit donc montrer à quel modèle elle se réfère (par indice ou autre). Je ne le fais jamais, bien sûr, mais pour l'enseignement, je pourrais.

Enfin, pour être cohérent avec mes réponses précédentes, je dis la "probabilité de " dans votre dernière formule.θ

gui11aume
la source
Merci. Et quel est votre avis sur l'égalité jusqu'à une constante multiplicative?
Stéphane Laurent
Personnellement, je préfère l'appeler en cas de besoin plutôt que de le coder en dur dans la définition. Et pensez que pour la sélection / comparaison de modèles, cette égalité «jusqu'à une constante multiplicative» ne tient pas.
gui11aume
D'accord. Concernant le nom, vous pourriez imaginer discuter des probabilités et L ( θ x 2 ) pour deux observations possibles. Dans un tel cas, diriez-vous "la probabilité de θ lorsque x 1 est observée", ou "la probabilité de θ pour l'observation x 1 ", ou autre chose? L(θx1)L(θx2)θx1θx1
Stéphane Laurent
1
Si vous re-paramétrez votre modèle avec vous calculez en fait la probabilité comme une composition de fonctions L ( . | X ) g ( . )g ( y ) = y 2 . Dans ce cas, g passe de R à R + donc l'ensemble de définition (mentionné comme "de" l'ensemble) de la vraisemblance n'est plus le même. Vous pouvez appeler la première fonction L 1 ( . |ϕ=θ2L(.|x)g(.)g(y)=y2gRR+L1(.|)et le second car ce ne sont pas les mêmes fonctions. L2(.|)
gui11aume
1
Comment la troisième définition est-elle rigoureuse? Et quel est le problème avec la taille de l'échantillon non définie? Puisque nous disons , ce qui fait naturellement exister une algèbre sigma correspondante pour l'espace d'échantillonnage Ω n , pourquoi ne pouvons-nous pas avoir la définition parallèle des vraisemblances? P(x1,x2,,xnθ)Ωn
Neil G
8

Je pense que je l'appellerais quelque chose de différent. La vraisemblance est la densité de probabilité pour le x observé étant donné la valeur du paramètre exprimée en fonction de θ pour le x donné . Je ne partage pas le point de vue sur la constante de proportionnalité. Je pense que cela n'entre en jeu que parce que maximiser toute fonction monotone de la vraisemblance donne la même solution pour θ . Vous pouvez donc maximiser c L ( θx ) pour c > 0 ou d'autres fonctions monotones telles que log ( L ( θx ) )θθxθcL(θx)c>0log(L(θx)) ce qui est communément fait.

Michael R. Chernick
la source
4
Non seulement la maximisation: la proportionnalité jusqu'à joue également dans la notion de rapport de vraisemblance et dans la formule de Bayes pour les statistiques bayésiennes
Stéphane Laurent
J'ai pensé que quelqu'un pourrait voter contre ma réponse. Mais je pense qu'il est tout à fait raisonnable de définir la probabilité de cette façon comme une probabilité définitive sans appeler quoi que ce soit de promotionnel une probabilité. @ StéphaneLaurent à votre commentaire sur les a priori, si la fonction est intégrable elle peut être normalisée à une densité. Le postérieur est proportionnel à la probabilité multipliée par le précédent. Puisque le postérieur doit être normalisé en divisant par une intégrale, nous pourrions aussi bien spécifier le préalable à la distribution. Ce n'est que dans un sens étendu que cela s'applique à des prieurs incorrects.
Michael R. Chernick
1
Je ne sais pas trop pourquoi quelqu'un voterait contre cette réponse. Il semble que vous essayez de répondre davantage à la deuxième question et aux questions du PO que la première. Ce n'était peut-être pas tout à fait clair pour les autres lecteurs. À votre santé. :)
cardinal
@Michael Je ne vois pas la nécessité de voter contre cette réponse aussi. Concernant les prieurs non informatifs (c'est une autre discussion et) j'ai l'intention d'ouvrir une nouvelle discussion sur ce sujet. Je ne le ferai pas de sitôt, car je ne suis pas facile avec l'anglais, et c'est plus difficile pour moi d'écrire "philosophie" que mathématiques.
Stéphane Laurent
1
@Stephane: Si vous le souhaitez, pensez à poster votre autre question directement en français. Nous avons plusieurs locuteurs natifs français sur ce site qui pourraient probablement aider à traduire les passages dont vous n'êtes pas sûr. Cela comprend un modérateur et également un éditeur de l'une des meilleures revues de statistiques en anglais. J'attends la question avec impatience.
cardinal
6

Voici une tentative de définition mathématique rigoureuse:

Soit un vecteur aléatoire qui admet une densité f ( x | θ 0 ) par rapport à une mesure ν sur R n , où pour θ Θ , { f ( x | θ ) : θ Θ } est une famille de densités sur R n par rapport à ν . Ensuite, pour tout x R n, nous définissons la fonction de vraisemblanceX:ΩRnf(x|θ0)νRnθΘ{f(x|θ):θΘ}RnνxRn. être f ( x | θ ) ; pourclarté, pour chaque x nous avons L x : & thetav R . On peut penser que x est un potentiel particulier x o b s et θ 0 la valeur "vraie" de θL(θ|x)f(x|θ)xLx:ΘRxxobsθ0θ

Quelques observations sur cette définition:

  1. La définition est suffisamment robuste pour gérer des familles de distributions discrètes, continues et autres pour X .
  2. Nous définissons la probabilité au niveau des fonctions de densité plutôt qu'au niveau des distributions / mesures de probabilité. La raison en est que les densités ne sont pas uniques, et il s'avère que ce n'est pas une situation où l'on peut passer à des classes d'équivalence de densités tout en étant sûr: différents choix de densités conduisent à des MLE différents dans le cas continu. Cependant, dans la plupart des cas, il existe un choix naturel de familles de densités qui sont théoriquement souhaitables.
  3. J'aime cette définition car elle y incorpore les variables aléatoires avec lesquelles nous travaillons et, par conception, car nous devons leur attribuer une distribution, nous avons également rigoureusement intégré la notion de valeur "vraie mais inconnue" de , ici notée θ 0 . Pour moi, en tant qu'étudiant, le défi d'être rigoureux sur la vraisemblance était toujours de savoir comment concilier les concepts réels d'un θ «vrai» et «observé» x o b s avec les mathématiques; cela n'a souvent pas été aidé par des instructeurs affirmant que ces concepts n'étaient pas formels, mais se retournant et les utilisant formellement pour prouver les choses! Nous les traitons donc formellement dans cette définition.θθ0θxobs
  4. EDIT: Bien sûr, nous sommes libres de considérer les éléments aléatoires habituels , S ( θ | X ) et I ( θ | X ) et sous cette définition sans réel problème de rigueur tant que vous faites attention (ou même si vous ne l'êtes pas si ce niveau de rigueur n'est pas important pour vous).L(θ|X)S(θ|X)I(θ|X)
gars
la source
4
@ Xi'an Soit soit uniforme sur ( 0 , θ ) . Considérons deux densités f 1 ( x ) = θ - 1 I [ 0 < x < θ ] contre f 2 ( x ) = θ - 1 I [ 0 x θ ] . Les deux f 1 etX1,...,Xn(0,θ)f1(x)=θ1I[0<x<θ]f2(x)=θ1I[0xθ]f1 sont des densités valides pour U ( 0 , θ ) , mais sous f 2 le MLE existe et est égal à max X i alors que sous f 1 nous avonsj f 1 ( x j | max x i ) = 0 de sorte que si vous définissez θ = max X i vous finissez avec une probabilité de 0 , et en fait la MLE n'existe pas parce que sup θ tcf2U(0,θ)f2maxXif1jf1(xj|maxxi)=0θ^=maxXi0 n'est atteint pour aucun θ . supθjf1(x|θ)θ
gars
1
@guy: merci, je ne connaissais pas ce contre-exemple intéressant.
Xi'an
1
@guy Vous avez dit que n'est atteint pour aucun θ . Cependant, ce supremum est atteint à un moment donné comme je le montre ci-dessous: L 1 ( θ ; x ) = n j = 1 f 1 ( x j | θ ) = θ - n n j = 1 I ( 0 < x j <supθjf1(xj|θ)θM=max{x1,,xn}. Je suppose quexj>0pour toutj=1,,n. Il est simple de voir que 1.L1(θ;x)=0, si0<θM; 2.
L1(θ;x)=j=1nf1(xj|θ)=θnj=1nI(0<xj<θ)=θnI(0<M<θ),
M=max{x1,,xn}xj>0j=1,,nL1(θ;x)=00<θM , si M < θ < . Suite ...L1(θ;x)=θnM<θ<
Alexandre Patriota
1
L1(θ;x)[0,Mn),
θ(0,)
supθ(0,)L1(θ,x)=Mn
M=argsupθ(0,)L1(θ;x).
L1(θ;x)
1
@AlexandrePatriota The supremum exists, obviously, but it is not attained by the function. I'm not sure what the notation argsup is supposed to mean - there is no argument of L1(θ;x) which yields the sup because L1(θ;M)=0. The MLE is defined as any θ^ which attains the sup (typically) and no θ^ attains the sup here. Obviously there are ways around it - the asymptotics we appeal to require that there exists a likelihood with such-and-such properties, and there does. It's just L2 rather than L1.
guy