En termes simples, quelle est la différence entre un modèle et une distribution?

28

Les réponses (définitions) définies sur Wikipedia sont sans doute un peu cryptiques pour ceux qui ne connaissent pas les mathématiques / statistiques supérieures.

En termes mathématiques, un modèle statistique est généralement considéré comme une paire ( $S, \mathcal{P}$ ), où $S$ est l'ensemble des observations possibles, à savoir l'espace de l' échantillon, et $\mathcal{P}$ est un ensemble de distributions de probabilité sur $S$ .

Dans les probabilités et les statistiques, une distribution de probabilités attribue une probabilité à chaque sous-ensemble mesurable des résultats possibles d'une expérience aléatoire, d'une enquête ou d'une procédure d'inférence statistique. On trouve des exemples dont l'espace d'échantillonnage est non numérique, où la distribution serait une distribution catégorielle.

Je suis un lycéen très intéressé par ce domaine comme passe-temps et je suis actuellement aux prises avec les différences entre ce qui est un statistical modelet unprobability distribution

Ma compréhension actuelle et très rudimentaire est la suivante:

les modèles statistiques sont des tentatives mathématiques pour approximer les distributions mesurées
les distributions de probabilité sont des descriptions mesurées d'expériences qui attribuent des probabilités à chaque résultat possible d'un événement aléatoire

la confusion est encore aggravée par la tendance dans la littérature à voir les mots "distribution" et "modèle" utilisés de manière interchangeable - ou du moins dans des situations très similaires (par exemple, distribution binomiale vs modèle binomial)

Quelqu'un peut-il vérifier / corriger mes définitions et peut-être proposer une approche plus formalisée (quoique toujours en termes d'anglais simple) de ces concepts?

distributions model terminology AlanSTACK
la source

1

Conclusion: il n'y a absolument aucune différence entre un modèle statistique et une distribution de probabilité. Chaque modèle statistique décrit une distribution de probabilité et vice versa. Ne les laissez pas vous confondre avec de longs textes.

Cagdas Ozgenc

3

@Cagdas Selon la définition citée dans la question, il y a une différence: un modèle statistique est une collection organisée particulière de distributions de probabilité. Lorsqu'une seule distribution de probabilité est mise en évidence, alors nous ne faisons plus du tout de statistiques, car l'objectif de l'analyse statistique est atteint: nous connaissons la distribution!

whuber

2

@cagdas Wikipedia tient compagnie aux meilleurs textes. Je suis entièrement d'accord avec cela.

whuber

4

@CagdasOzgenc, pourquoi ne pas présenter des preuves pour étayer vos affirmations précises et précises. La preuve par autorité est rarement (voire jamais) acceptable. Sans eivdence, il est difficile (voire impossible) d'avoir une discussion productive; les affirmations non fondées sont rarement beaucoup plus que du bruit.

Richard Hardy

2

@RichardHardy La question demandait des "termes profanes", et regardez les réponses qu'il a obtenues. Excusez-moi, mais je déteste voir les étudiants souffrir juste parce que quelqu'un décide de se montrer. La réponse est aussi simple que 2 + 2 = 4, et je ne pense vraiment pas que cela nécessite une référence faisant autorité de 20 pages.

Cagdas Ozgenc

25

La distribution de probabilité est une fonction mathématique qui décrit une variable aléatoire. Un peu plus précisément, c'est une fonction qui attribue des probabilités aux nombres et sa sortie doit être en accord avec les axiomes de probabilité .

Le modèle statistique est une description abstraite et idéalisée de certains phénomènes en termes mathématiques en utilisant des distributions de probabilité. Citant Wasserman (2013):

Un modèle statistique est un ensemble de distributions (ou densités ou fonctions de régression). Un modèle paramétrique est un ensemble qui peut être paramétré par un nombre fini de paramètres. [...] $\mathfrak{F}$ $\mathfrak{F}$

En général, un modèle paramétrique prend la forme

$F = {F (X; θ) : θ \in Θ}$ $\mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \}$
où est un paramètre inconnu (ou vecteur de paramètres) qui peut prendre des valeurs dans l' espace des paramètres . Si est un vecteur mais que nous ne nous intéressons qu'à une seule composante de , nous appelons les paramètres restants des paramètres de nuisance . Un modèle non paramétrique est un ensemble qui ne peut pas être paramétré par un nombre fini de paramètres. $\theta$ $\Theta$ $\theta$ $\theta$ $\mathfrak{F}$

Dans de nombreux cas, nous utilisons des distributions comme modèles (vous pouvez vérifier cet exemple ). Vous pouvez utiliser la distribution binomiale comme modèle de comptage de têtes dans une série de lancers de pièces. Dans ce cas, nous supposons que cette distribution décrit, de manière simplifiée, les résultats réels. Cela ne signifie pas qu'il s'agit d'une seule façon de décrire un tel phénomène, ni que la distribution binomiale est quelque chose qui ne peut être utilisé qu'à cette fin. Le modèle peut utiliser une ou plusieurs distributions, tandis que les modèles bayésiens spécifient également des distributions antérieures.

Plus formellement, cela est discuté par McCullaugh (2002):

Selon les théories actuellement acceptées [Cox et Hinkley (1974), chapitre 1; Lehmann (1983), chapitre 1; Barndorff-Nielsen et Cox (1994), section 1.1; Bernardo et Smith (1994), Chapitre 4] un modèle statistique est un ensemble de distributions de probabilité sur l'espace échantillon . Un modèle statistique paramétré est un paramètre réglé avec une fonction , qui attribue à chaque point de paramètre une distribution de probabilité sur . Ici est l'ensemble de tous $\mathcal{S}$ $\Theta$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $\mathcal{\theta \in \Theta}$ $P \theta$ $\mathcal{S}$ $\mathcal{P}(\mathcal{S})$ les distributions de probabilité sur . Dans la plupart des cas suivants, il est important de faire la distinction entre le modèle en tant que fonction et l'ensemble de distributions associé . $\mathcal{S}$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $P\Theta \subset \mathcal{P} (\mathcal{S})$

Les modèles statistiques utilisent donc des distributions de probabilité pour décrire les données dans leurs termes. Les modèles paramétriques sont également décrits en termes d'ensemble fini de paramètres.

Cela ne signifie pas que toutes les méthodes statistiques nécessitent des distributions de probabilité. Par exemple, la régression linéaire est souvent décrite en termes d' hypothèse de normalité , mais en fait, elle est assez robuste aux écarts par rapport à la normalité et nous avons besoin d'hypothèses sur la normalité des erreurs pour les intervalles de confiance et les tests d'hypothèse. Donc, pour que la régression fonctionne, nous n'avons pas besoin d'une telle hypothèse, mais pour avoir un modèle statistique entièrement spécifié, nous devons le décrire en termes de variables aléatoires , nous avons donc besoin de distributions de probabilité. J'écris à ce sujet parce que vous pouvez souvent entendre des gens dire qu'ils ont utilisé un modèle de régression pour leurs données - dans la plupart des cas, ils signifient plutôt qu'ils décrivent les données en termes de relation linéaire entre les valeurs cibles et les prédicteurs à l'aide de certains paramètres, plutôt que d'insister sur le conditionnel. normalité.

McCullagh, P. (2002). Qu'est-ce qu'un modèle statistique? Annales des statistiques, 1225-1267.

Wasserman, L. (2013). Toutes les statistiques: un cours concis d'inférence statistique. Springer.

Tim
la source

4

@ JCLeitão c'est pourquoi j'ai ajouté l'avis;) L'OLS classique ne concerne que l'ajustement de la ligne. Les hypothèses de normalité ne concernent que le bruit tandis que l'idée centrale est que nous modélisons E (y) comme une fonction linéaire de X. La normalité est nécessaire pour les intervalles de confiance et les tests, mais la régression consiste à ajuster la ligne et les erreurs sont de moindre importance. (Sans parler.)

Tim

Merci pour votre réponse. Pourriez-vous fournir 2 définitions concises pour résumer? (Je ne comprends pas non plus la dernière ligne

In much of the following, it is important to distinguish between the model as a function and the associated set of distributions

) Faites-vous simplement un commentaire sur l'ambiguïté inhérente entre les deux significations partageant le même terme modelou ai-je raté quelque chose?

AlanSTACK

@Alan deux définitions concises sont fournies dans les deux premiers paragraphes, tandis qu'une plus rigoureuse dans la citation et les références - pourriez-vous clarifier ce qui n'est pas clair? En ce qui concerne la dernière ligne de citation: il dit essentiellement que le modèle est défini en termes de distributions de probabilité et de paramètres et il est bon de se rappeler qu'il a ces deux aspects, parfois il est bon de les distinguer. Je recommande le document cité pour une discussion rigoureuse (il est disponible gratuitement sous le lien).

Tim

8

Considérez comme un ensemble de tickets . Vous pouvez écrire des trucs sur un ticket. Habituellement, un ticket commence avec le nom d'une personne ou d'un objet du monde réel qu'il "représente" ou "modèles". Il y a beaucoup d'espace vide sur chaque ticket pour écrire d'autres choses. $\mathcal{S}$

Vous pouvez faire autant de copies de chaque ticket que vous le souhaitez. Un modèle de probabilité pour cette population ou ce processus réel consiste à faire une ou plusieurs copies de chaque ticket, à les mélanger et à les mettre dans une boîte. Si vous - l'analyste - pouvez établir que le processus de tirage au hasard d'un ticket dans cette boîte émule tous les comportements importants de ce que vous étudiez, alors vous pouvez en apprendre beaucoup sur le monde en pensant à cette boîte. Étant donné que certains billets peuvent être plus nombreux dans la boîte que d'autres, ils peuvent avoir des chances différentes d'être tirés. La théorie des probabilités étudie ces chances. $\mathbb{P}$

Lorsque des nombres sont écrits sur les tickets (de manière cohérente), ils donnent lieu à des distributions (probabilités). Une distribution de probabilité décrit simplement la proportion de tickets dans une boîte dont les nombres se situent dans un intervalle donné.

Parce que nous ne savons généralement pas exactement comment le monde se comporte, nous devons imaginer différentes cases dans lesquelles les tickets apparaissent avec des fréquences relatives différentes. L'ensemble de ces boîtes est . Nous considérons le monde comme étant suffisamment décrit par le comportement de l' une des boîtes en . Votre objectif est de deviner de quelle boîte il s'agit, en fonction de ce que vous voyez sur les billets que vous en avez retirés. $\mathcal{P}$ $\mathcal{P}$

$y$ $0$ $100$

$0$ $100$

$0$ $100$ $y_0$ $y_{100}$ $y_0$ $y_{100}$ observations représentent les résultats observables possibles de votre expérience. Dans la boîte, entrez chacun de ces ensembles de tickets: c'est un modèle de probabilitépour ce que vous pourriez observer pour une constante de vitesse donnée.

$y_0$ $y_{100}$

Les observations inscrites sur chaque ticket étant des nombres, elles donnent lieu à des distributions de probabilité. Les hypothèses formulées à propos des boîtes sont généralement formulées en termes de propriétés de ces distributions, par exemple, si elles doivent faire la moyenne de zéro, être symétriques, avoir une forme de "courbe en cloche", non corrélées ou autre.

C'est vraiment tout ce qu'il y a à faire. Tout comme la gamme primitive de douze tons a donné naissance à toute la musique classique occidentale, une collection de boîtes contenant des billets est un concept simple qui peut être utilisé de manière extrêmement riche et complexe. Il peut modéliser à peu près n'importe quoi, allant d'un lancer de pièce à une bibliothèque de vidéos, des bases de données d'interactions de sites Web, des ensembles de mécanique quantique et tout ce qui peut être observé et enregistré.

whuber
la source

3

$\pi$

Les modèles statistiques paramétriques typiques décrivent comment le ou les paramètres d'une distribution dépendent de certaines choses telles que les facteurs (une variable qui a des valeurs discrètes) et les covariables (variables continues). Par exemple, si dans une distribution normale vous supposez que la moyenne peut être décrite par un certain nombre fixe (une "interception") et un certain nombre (un "coefficient de régression") multiplié par la valeur d'une covariable, vous obtenez un modèle de régression linéaire avec un terme d'erreur normalement distribué. Pour une distribution binomiale, un modèle couramment utilisé ("régression logistique" $\pi$ $\pi/(1-\pi)$ $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$

Björn
la source

2

Oui, mais ... Le modèle ne concerne pas seulement les paramètres mais peut aussi concerner la structure du problème (par exemple, le modèle probabilstique qui ressemble au processus de génération de données supposé); il existe également des modèles non paramétriques.

Tim

2

Une distribution de probabilité donne toutes les informations sur la façon dont une quantité aléatoire fluctue. En pratique, nous n'avons généralement pas la distribution de probabilité complète de notre quantité d'intérêt. Nous pouvons savoir ou supposer quelque chose à ce sujet sans savoir ou supposer que nous savons tout à ce sujet. Par exemple, nous pourrions supposer qu'une certaine quantité est normalement distribuée mais ne savons rien de la moyenne et de la variance. Ensuite, nous avons une collection de candidats pour la distribution à choisir; dans notre exemple, ce sont toutes les distributions normales possibles. Cette collection de distributions forme un modèle statistique. Nous l'utilisons en collectant des données, puis en restreignant notre classe de candidats afin que tous les candidats restants soient cohérents avec les données dans un sens approprié.

Ian
la source

2

Un modèle est spécifié par un PDF, mais ce n'est pas un PDF.

La distribution de probabilité (PDF) est une fonction qui attribue des probabilités aux nombres et sa sortie doit être en accord avec les axiomes de probabilité, comme l'a expliqué Tim .

Un modèle est entièrement défini par une distribution de probabilité, mais c'est plus que cela. Dans l'exemple du lancer de pièces, notre modèle pourrait être «la pièce est juste» + «chaque lancer est indépendant». Ce modèle est spécifié par un PDF qui est un binôme avec p = 0,5.

Cependant, on pourrait imaginer un modèle où les lancers ne sont pas indépendants, auquel cas il n'est plus décrit par le binôme PDF. Pourtant, le modèle est spécifié par la distribution conjointe (un PDF) de tous les événements $P(x_1, x_2, x_3, ...)$ . Le point étant, formellement, un modèle est toujours spécifié par la distribution conjointe sur les événements.

Une distinction entre le modèle et le PDF est qu'un modèle peut être interprété comme une hypothèse statistique. Par exemple, dans le lancer de pièces, nous pouvons considérer le modèle où la pièce est juste (p = 0,5), et que chaque lancer est indépendant (binôme), et dire que c'est notre hypothèse, que nous voulons tester par rapport à une hypothèse concurrente .

Vous pouvez également avoir des modèles concurrents (par exemple, nous ne savons pas $p$ et nous voulons calculer $p$ est le meilleur ajustement). Il n'est pas logique de parler de PDF concurrents car ils ne sont qu'un objet mathématique.

Jorge Leitao
la source

Pouvez-vous développer votre dernière phrase? Cela me semble être une partie importante des statistiques non paramétriques.

Ian

J'ai toujours interprété les modèles non paramétriques comme moins restrictifs sur le PDF de x_i, mais qui nécessitent toujours un PDF pour les statistiques qu'ils utilisent. Par exemple, la corrélation de rang de Kendal suppose une normalité pour calculer la valeur de p . Mais il se pourrait qu'il y ait un contre-exemple. Je serais intéressé.

Jorge Leitao

Je ne comprends tout simplement pas ce que vous voulez dire lorsque vous dites "cela n'a pas de sens de parler de PDF concurrents". C'est exactement ce que nous faisons vraiment, même dans les statistiques paramétriques: nous avons un tas de PDF qui, selon nous, pourraient être valides pour le problème, nous prenons certaines données et nous concluons à partir des données qu'un sous-ensemble de nos PDF est meilleur. Ensuite, nous quantifions ce que nous entendons par «mieux». (De plus, dans le contexte élémentaire, vous ne devriez vraiment pas utiliser "PDF" pour tout. Dans le sens de la distribution, cela fonctionne finalement, mais c'est une machine assez sophistiquée ...)

Ian

A model is specified by a PDFJe ne suis pas d'accord. Un modèle peut également être spécifié par plusieurs PDF. Et un modèle peut être spécifié par aucun PDF: pensez à quelque chose comme un SVM ou un arbre de régression.

Ricardo Cruz

2

Vous posez une question très importante, Alan, et avez reçu quelques bonnes réponses ci-dessus. Je voudrais offrir une réponse plus simple et indiquer également une dimension supplémentaire à la distinction que les réponses ci-dessus n'ont pas abordée. Par souci de simplicité, tout ce que je dirai ici concerne les modèles statistiques paramétriques .

Tout d’abord, vous pouvez trouver l’idée d’un famille utile pour relier votre question à des choses que vous avez apprises au lycée. (Je suis surpris que ce mot ne soit pas encore apparu sur cette page!) Vous avez depuis longtemps découvert la famille des courbes quadratiques, $y = a x^2 + b x + c$ . Vous pouvez penser à un modèle statistique paramétrique de la même manière, comme une famille de distributions . Vous avez probablement fait des expériences de laboratoire dans des cours de chimie ou de physique, où vous avez collecté des données et les avez tracées afin d'identifier des paramètres à partir d'une simple famille de modèles comme $y = m x + b$ ou $F = -k x$ . Au plus haut niveau, l'estimation des paramètres d'un modèle statistique ressemble beaucoup au processus de recherche de la pente $m$ et intercepter $b$ , ou trouver la constante de ressort $k$ . Alors que vous continuez à étudier les mathématiques, vous verrez des «familles» de différentes sortes d'entités surgir partout.

Donc, ma brève réponse n ° 1 à votre question est: un modèle statistique est une famille de distributions.

L'autre point que je voulais faire concerne le qualificatif statistique . Comme le souligne Judea Pearl dans sa "règle d'or de l'analyse causale" [1, p350],

Aucune allégation causale ne peut être établie par une méthode purement statistique, qu'il s'agisse de scores de propension, de régression, de stratification ou de tout autre plan basé sur la distribution.

(Aux fins actuelles, je vous invite à lire «statistique» à la place de «basé sur la distribution» et «modèle» à la place de «conception».) Ce que Pearl tient à faire comprendre, c'est que nos modèles d'effets causals monde (pensez $F=-kx$ , par exemple!) incarnent nécessairement plus que des idées purement statistiques . Ainsi, en prenant votre question comme intitulée --- c'est-à-dire sans la statistique de qualification attachée au modèle --- une réponse complète nécessite un avertissement supplémentaire selon lequel les modèles incorporent généralement des idées causales qui se trouvent intrinsèquement en dehors de la province des statistiques, c'est-à - dire des déclarations sur les distributions de probabilité .

Ainsi, ma réponse n ° 2 à votre question est la suivante: les modèles incarnent généralement des idées causales qui ne peuvent pas être exprimées en termes purement distributionnels.

[1]: Pearl, Judée. Causalité: modèles, raisonnement et inférence. 2e édition. Cambridge, Royaume-Uni; New York: Cambridge University Press, 2009. Lien vers le §11.3.5, y compris cité p. 351.

David C. Norris
la source

Pardonnez mon ignorance, mais que voulez-vous dire par ce mot causal? Y a-t-il une signification plus nuancée ou se réfère-t-elle simplement à la notion causalityet aux relations liées entre causeset effects? Merci pour votre réponse, btw.

AlanSTACK

Causal connaissance implique les effets des interventions . Si vous avez une connaissance causale, vous savez comment un système réagira à une action que vous effectuez. (Cf. le refrain commun, "l'association n'est pas un lien de causalité.") Une façon d'apprécier comment la connaissance causale se situe au-delà du domaine des simples statistiques est de considérer l'exemple de la loi de Hooke que j'ai cité ci-dessus. Selon la façon dont un ressort est utilisé (p. Ex., Dans une écaille de poisson vs une arme-jouet à ressort), le

F

$F$ pourrait provoquer la

x

$x$ ou vice versa. Encore

F = - k x

$F=-kx$ est ambivalent à la causalité ici (parce que

=

$=$ est une relation symétrique).

David C.Norris

En termes simples, quelle est la différence entre un modèle et une distribution?

Réponses: