Différences entre un modèle statistique et un modèle de probabilité?

29

La probabilité appliquée est une branche importante de la probabilité, y compris la probabilité de calcul. Étant donné que les statistiques utilisent la théorie des probabilités pour construire des modèles pour traiter les données, si je comprends bien, je me demande quelle est la différence essentielle entre le modèle statistique et le modèle de probabilité? Le modèle de probabilité n'a pas besoin de données réelles? Merci.

Honglang Wang
la source

Réponses:

29

Une probabilité de modèle est constitué d'un triplet , où Ω est l'espace échantillon, F est un σ -alg'ebre (événements) , et P est une mesure de probabilité sur F .(Ω,F,P)ΩFσPF

Explication intuitive . Un modèle de probabilité peut être interprété comme une connu variable aléatoire . Par exemple, soit X une variable aléatoire normalement distribuée avec une moyenne de 0 et une variance de 1 . Dans ce cas, la mesure de probabilité P est associée à la fonction de distribution cumulative (CDF) F parXX01PF

F(x)=P(Xx)=P(ωΩ:X(ω)x)=x12πexp(t22)dt.

Généralisations . La définition du modèle de probabilité dépend de la définition mathématique de la probabilité, voir par exemple Probabilité libre et Probabilité quantique .

Un modèle statistique est un ensemble de modèles de probabilité, c'est-à-dire un ensemble de mesures / distributions de probabilité sur l'espace d'échantillonnage Ω .SΩ

Cet ensemble de distributions de probabilité est généralement sélectionné pour modéliser un certain phénomène à partir duquel nous avons des données.

Explication intuitive . Dans un modèle statistique, les paramètres et la distribution qui décrivent un certain phénomène sont tous deux inconnus. Un exemple de ceci est la famille des distributions normales avec la moyenne et la variance σ 2R + , c'est-à-dire que les deux paramètres sont inconnus et vous voulez généralement utiliser l'ensemble de données pour estimer les paramètres (c'est-à-dire sélectionner un élément de S ). Cet ensemble de distributions peut être choisi sur n'importe quel Ω et F , mais, si je ne me trompe pas, dans un exemple réel uniquement ceux définis sur la même paire ( Ω , F )μRσ2R+SΩF(Ω,F) sont raisonnables à considérer.

Généralisations . Cet article fournit une définition très formelle du modèle statistique, mais l'auteur mentionne que "le modèle bayésien nécessite une composante supplémentaire sous la forme d'une distribution antérieure ... Bien que les formulations bayésiennes ne soient pas le principal objectif de cet article". Par conséquent, la définition du modèle statistique dépend du type de modèle que nous utilisons: paramétrique ou non paramétrique. Toujours dans le cadre paramétrique, la définition dépend de la façon dont les paramètres sont traités (par exemple classique vs bayésien).

La différence est la suivante: dans un modèle de probabilité, vous connaissez exactement la mesure de probabilité, par exemple une , où μ 0 , σ 2 0 sont des paramètres connus., Tandis que dans un modèle statistique, vous envisagez des ensembles de distributions , par exemple Normal ( μ , σ 2 ) , où μ , σ 2Normal(μ0,σ02)μ0,σ02Normal(μ,σ2)μ,σ2 sont des paramètres inconnus.

Aucun d'entre eux ne nécessite un ensemble de données, mais je dirais qu'un modèle statistique est généralement sélectionné pour en modéliser un.

Xi'an
la source
2
@HonglangWang C'est correct dans une certaine mesure. La principale différence est qu'un modèle de probabilité n'est qu'une seule distribution (connue), tandis qu'un modèle statistique est un ensemble de modèles de probabilité; les données sont utilisées pour sélectionner un modèle dans cet ensemble ou un sous-ensemble plus petit de modèles qui décrivent mieux (dans un certain sens) le phénomène (à la lumière des données).
2
(+1) C'est une bonne réponse, même si j'ai quelques commentaires. Tout d'abord, je pense que cela peut vendre le probabiliste un peu court. Il n'est pas du tout rare de considérer un ensemble d'espaces de probabilité dans un modèle probabiliste, et en effet, les mesures possibles peuvent même être aléatoires (construites sur un espace convenablement plus grand). Deuxièmement, un bayésien (en particulier) pourrait trouver cette réponse légèrement déconcertante dans la mesure où un modèle statistique bayésien peut souvent être considéré comme un modèle de probabilité unique sur un espace de produit approprié . Ω×Θ
Cardinal
1
@gung C'est une question plus liée à la théorie des mesures. Concernant votre première question, est en effet défini par le CDF. Or, l'interprétation de Ω est difficile car, formellement, P ( X x ) signifie P ( ω Ω : X ( ω ) x ) , alors Ω ne sont pas des valeurs observables. F est une σ - algèbre qui est la pré-image du Borel σ -PΩP(Xx)P(ωΩ:X(ω)x)ΩFσσ algèbre sous X, encore une fois, ce ne sont pas observables. Je ne sais pas comment expliquer cela à un niveau intuitif.
2
@gung dépend de l' application ; il n'est pas déterminé par la théorie. Par exemple, Ω pourrait être un ensemble de mouvements browniens décrivant le prix d'un dérivé financier et X pourrait être la valeur atteinte à un instant fixe t . Dans une autre application, Ω pourrait être un ensemble de personnes et X pourrait être la longueur de leurs avant-bras. Généralement, Ω est un modèle mathématique des objets physiques d'étude et X est une propriété numérique de ces objets. F est l'ensemble des événements possibles: les situations auxquelles nous voulons attribuer des probabilités.ΩΩXtΩXΩXF
whuber
2
@gung est une algèbre sigma : c'est une collection de sous-ensembles (les "événements"). Dans l'application financière, c'est un ensemble d'histoires de prix; dans l'application de mesures d'avant-bras, les événements seraient des ensembles de personnes. Nous pouvons en parler davantage si vous le souhaitez dans un salon de discussion. F
whuber