Qu'est-ce qu'une distribution exactement?

16

Je connais très peu de probabilités et de statistiques, et je souhaite apprendre. Je vois le mot «distribution» utilisé partout dans différents contextes.

Par exemple, une variable aléatoire discrète a une «distribution de probabilité». Je sais ce que c'est. Une variable aléatoire continue a une fonction de densité de probabilité, puis pour , l'intégrale de à de la fonction de densité de probabilité est la fonction de distribution cumulative évaluée à .xRxx

Et apparemment, juste «fonction de distribution» est synonyme de «fonction de distribution cumulative», du moins quand on parle de variables aléatoires continues (question: sont-elles toujours synonymes?).

Ensuite, il existe de nombreuses distributions célèbres. Distribution distribution , etc. Mais qu'est-ce qu'une distribution exactement ? Est-ce la fonction de distribution cumulative d'une variable aléatoire ? Ou la fonction de densité de probabilité d'une variable aléatoire ?χ 2 Γ ΓΓχ2ΓΓΓ

Mais alors, une distribution de fréquence d'un ensemble de données finies semble être un histogramme.

Pour faire court: dans Probability and Statistics, quelle est la définition du mot "distribution"?

Je connais la définition de la distribution en mathématiques (un élément du double espace de la collection de fonctions de test équipées de la topologie limite inductive), mais pas la probabilité et les statistiques.

danzibr
la source
1
L'article Wikipédia correspondant semble être une introduction décente au sujet.
Aleksandr Blekh
1
Strictement, «distribution» et «cdf» doivent être considérés comme des synonymes, mais «distribution» est souvent utilisé dans un sens beaucoup plus lâche et est souvent utilisé pour faire référence à une densité / pmf.
Glen_b -Reinstate Monica
3
Votre compréhension d'une distribution est assez proche de celle de la probabilité; la principale différence est que ceux qui sont susceptibles jouissent de propriétés supplémentaires (d'être positifs et normalisés à l'unité). La connexion est que votre définition établit une distribution en termes de l'opérateur d'attente associé. Il y a également un abus de langage (grave) répandu dans les statistiques, qui appelle également une famille paramétrée de distributions une "distribution". Enfin, tout ensemble de données fini détermine une distribution obtenue en l'échantillonnant, sa «distribution empirique».
whuber
@whuber Cela aide, merci En particulier, l'abus de langage. Ce serait comme appeler l'intégrale indéfinie d'une fonction ... une fonction.
danzibr
Une question similaire avec de bonnes réponses: stats.stackexchange.com/questions/210403/…
kjetil b halvorsen

Réponses:

7

Ce qui suit est pour variables aléatoires à valeurs. L'extension à d'autres espaces est simple si vous êtes intéressé. Je dirais que la définition légèrement plus générale suivante est plus intuitive que si l'on considère séparément les fonctions de densité, de masse et de distribution cumulative.R

J'inclus quelques termes mathématiques / probabilistes dans le texte pour le corriger. Si l'on ne connaît pas ces termes, l'intuition est également bien comprise en pensant simplement aux "ensembles de Borel" comme à "n'importe quel sous-ensemble de auquel je peux penser", et à la variable aléatoire le résultat numérique d'une expérience avec un probabilité associée.R


Soit un espace de probabilité et X ( ω(Ω,F,P) une R - variable aléatoirevaleur dans cet espace.X(ω)R

La fonction réglée Q(A):=P(ωΩ:X(ω)A) , où est un ensemble Borel, que l' on appelle la distribution de X .AX

En termes, la distribution vous dit (en gros), pour tout sous-ensemble de , la probabilité que X prenne une valeur dans cet ensemble. On peut prouver que Q est complètement déterminé par la fonction F ( x ) : = P ( X x ) et vice versa. Pour ce faire - et je saute les détails ici - construisez une mesure sur les ensembles de Borel qui attribue la probabilité F ( x ) à tous les ensembles ( - , π -RXQF(X): =P(XX)F(x) et soutenez que cette mesure finie est d'accord avec Q sur un(,x)Qπ système de production de la Borel algèbre.σ

S'il se trouve que peut être écrit comme Q ( A ) = A f ( x ) d x alors f est une fonction de densité pour Q et vous pouvez le voir, bien que cette densité ne soit pas déterminée de manière unique (considérez les changements sur ensembles de Lebesgue mesurent zéro), il est logique de parler aussi de f comme la distribution deQ(A)Q(A)=Af(x)dxfQf . En général, nous appelons cependant il la fonction de densité de probabilité de X .XX

De même, s'il arrive que puisse s'écrire Q ( A ) = i A { , - 1 , 0 , 1 , } f ( i ) , alors il est logique de parler de f comme la distribution de X bien que nous l'appelions généralement la fonction de masse de probabilité.Q(A)Q(A)=iA{,1,0,1,}f(i)fX

Ainsi, chaque fois que vous lisez quelque chose comme " suit une distribution uniforme sur [ 0 , 1 ] ", cela signifie simplement que la fonction Q ( A ) , qui vous indique la probabilité que X prenne des valeurs dans certains ensembles, est caractérisée par le fonction de densité de probabilité f ( x ) = I [ 0 , 1 ] ou la fonction de distribution cumulative F ( x ) = x -X[0,1]Q(A)Xf(x)=I[0,1] .F(x)=xf(t)dt

Une dernière note sur le cas où il n'est pas fait mention d'une variable aléatoire, mais uniquement d'une distribution. On peut prouver qu'étant donné une fonction de distribution (ou une fonction de distribution de masse, de densité ou cumulative), il existe un espace de probabilité avec une variable aléatoire qui a cette distribution. Ainsi, il n'y a essentiellement aucune différence en parlant d'une distribution ou d'une variable aléatoire ayant cette distribution. C'est juste une question de concentration.

ekvall
la source
3

Soit un espace de probabilité, soit ( X , B ) un espace mesurable, et soit X : Ω X une fonction mesurable, ce qui signifie que X - 1 ( B ) = { ω : X ( ω ) B } F pour chaque B B . La distribution de X est la mesure de probabilité μ(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB X sur ( XμX défini par μ X ( B ) = P ( X B ) . Lorsque X = R et B est le champ sigma de Borel, nous appelons la fonction X une "variable" aléatoire.(X,B)μX(B)=P(XB)X=RBX

Zen
la source
1
doit être très clair pour les personnes ayant peu de connaissances sur les probabilités et les statistiques :)
Alexey Grigorev
3
Eh bien, l'OP semble connaître des éléments mathématiques avancés tels que "élément du double espace de la collection de fonctions de test équipées de la topologie de limite inductive". Vérifiez la fin de sa question.
Zen
2
Ce fut en effet une bonne réponse pour moi. J'avais besoin de vérifier la définition d'un espace de probabilité, mais pour une personne ayant une formation en mathématiques, c'était clair. J'ai apprécié la concision de la réponse, mais je ne l'ai pas acceptée en raison des détails de l'autre réponse.
danzibr
1

Jusqu'à présent, la question et les réponses semblent se concentrer sur les distributions théoriques. Les distributions empiriques permettent une compréhension plus intuitive des distributions.

Exemple

Lors d'un tournoi de classe de corde à sauter, nous observons tous les enfants dans une classe de corde à sauter. Le premier enfant peut sauter deux fois, le deuxième quatre fois, le suivant quinze fois, etc. Nous enregistrons le nombre de sauts. Cinq des enfants ont sauté huit fois chacun, mais un seul a sauté deux fois. Nous disons que sauter huit fois est distribué différemment que sauter deux fois.

Une définition ostensive d'une distribution observée est la fréquence des occurrences pour chaque valeur observée d'une variable.

Dans les statistiques inférentielles, nous essayons ensuite d'adapter les distributions théoriques aux distributions observées, car nous aimerions travailler avec les hypothèses des distributions théoriques. Vous pouvez atteindre une définition similaire pour les distributions théoriques en remplaçant "observé" par "observable" ou pour être plus précis: "attendu".

noumenal
la source