Je connais très peu de probabilités et de statistiques, et je souhaite apprendre. Je vois le mot «distribution» utilisé partout dans différents contextes.
Par exemple, une variable aléatoire discrète a une «distribution de probabilité». Je sais ce que c'est. Une variable aléatoire continue a une fonction de densité de probabilité, puis pour , l'intégrale de à de la fonction de densité de probabilité est la fonction de distribution cumulative évaluée à .
Et apparemment, juste «fonction de distribution» est synonyme de «fonction de distribution cumulative», du moins quand on parle de variables aléatoires continues (question: sont-elles toujours synonymes?).
Ensuite, il existe de nombreuses distributions célèbres. Distribution distribution , etc. Mais qu'est-ce qu'une distribution exactement ? Est-ce la fonction de distribution cumulative d'une variable aléatoire ? Ou la fonction de densité de probabilité d'une variable aléatoire ?χ 2 Γ Γ
Mais alors, une distribution de fréquence d'un ensemble de données finies semble être un histogramme.
Pour faire court: dans Probability and Statistics, quelle est la définition du mot "distribution"?
Je connais la définition de la distribution en mathématiques (un élément du double espace de la collection de fonctions de test équipées de la topologie limite inductive), mais pas la probabilité et les statistiques.
la source
Réponses:
Ce qui suit est pour variables aléatoires à valeurs. L'extension à d'autres espaces est simple si vous êtes intéressé. Je dirais que la définition légèrement plus générale suivante est plus intuitive que si l'on considère séparément les fonctions de densité, de masse et de distribution cumulative.R -
J'inclus quelques termes mathématiques / probabilistes dans le texte pour le corriger. Si l'on ne connaît pas ces termes, l'intuition est également bien comprise en pensant simplement aux "ensembles de Borel" comme à "n'importe quel sous-ensemble de auquel je peux penser", et à la variable aléatoire le résultat numérique d'une expérience avec un probabilité associée.R
Soit un espace de probabilité et X ( ω( Ω , F, P) une R - variable aléatoirevaleur dans cet espace.X( ω ) R -
La fonction régléeQ ( A ) : = P( ω ∈ Ω : X(ω)∈A) , où est un ensemble Borel, que l' on appelle la distribution de X .A X
En termes, la distribution vous dit (en gros), pour tout sous-ensemble de , la probabilité que X prenne une valeur dans cet ensemble. On peut prouver que Q est complètement déterminé par la fonction F ( x ) : = P ( X ≤ x ) et vice versa. Pour ce faire - et je saute les détails ici - construisez une mesure sur les ensembles de Borel qui attribue la probabilité F ( x ) à tous les ensembles ( - ∞ , π -R X Q F(x):=P(X≤x) F(x) et soutenez que cette mesure finie est d'accord avec Q sur un(−∞,x) Q π− système de production de la Borel algèbre.σ−
S'il se trouve que peut être écrit comme Q ( A ) = ∫ A f ( x ) d x alors f est une fonction de densité pour Q et vous pouvez le voir, bien que cette densité ne soit pas déterminée de manière unique (considérez les changements sur ensembles de Lebesgue mesurent zéro), il est logique de parler aussi de f comme la distribution deQ(A) Q(A)=∫Af(x)dx f Q f . En général, nous appelons cependant il la fonction de densité de probabilité de X .X X
De même, s'il arrive que puisse s'écrire Q ( A ) = ∑ i ∈ A ∩ { … , - 1 , 0 , 1 , … } f ( i ) , alors il est logique de parler de f comme la distribution de X bien que nous l'appelions généralement la fonction de masse de probabilité.Q(A) Q(A)=∑i∈A∩{…,−1,0,1,…}f(i) f X
Ainsi, chaque fois que vous lisez quelque chose comme " suit une distribution uniforme sur [ 0 , 1 ] ", cela signifie simplement que la fonction Q ( A ) , qui vous indique la probabilité que X prenne des valeurs dans certains ensembles, est caractérisée par le fonction de densité de probabilité f ( x ) = I [ 0 , 1 ] ou la fonction de distribution cumulative F ( x ) = ∫ x -X [0,1] Q(A) X f(x)=I[0,1] .F(x)=∫x−∞f(t)dt
Une dernière note sur le cas où il n'est pas fait mention d'une variable aléatoire, mais uniquement d'une distribution. On peut prouver qu'étant donné une fonction de distribution (ou une fonction de distribution de masse, de densité ou cumulative), il existe un espace de probabilité avec une variable aléatoire qui a cette distribution. Ainsi, il n'y a essentiellement aucune différence en parlant d'une distribution ou d'une variable aléatoire ayant cette distribution. C'est juste une question de concentration.
la source
Soit un espace de probabilité, soit ( X , B ) un espace mesurable, et soit X : Ω → X une fonction mesurable, ce qui signifie que X - 1 ( B ) = { ω : X ( ω ) ∈ B } ∈ F pour chaque B ∈ B . La distribution de X est la mesure de probabilité μ(Ω,F,P) (X,B) X:Ω→X X−1(B)={ω:X(ω)∈B}∈F B∈B X sur ( XμX défini par μ X ( B ) = P ( X ∈ B ) . Lorsque X = R et B est le champ sigma de Borel, nous appelons la fonction X une "variable" aléatoire.(X,B) μX(B)=P(X∈B) X=R B X
la source
Jusqu'à présent, la question et les réponses semblent se concentrer sur les distributions théoriques. Les distributions empiriques permettent une compréhension plus intuitive des distributions.
Une définition ostensive d'une distribution observée est la fréquence des occurrences pour chaque valeur observée d'une variable.
Dans les statistiques inférentielles, nous essayons ensuite d'adapter les distributions théoriques aux distributions observées, car nous aimerions travailler avec les hypothèses des distributions théoriques. Vous pouvez atteindre une définition similaire pour les distributions théoriques en remplaçant "observé" par "observable" ou pour être plus précis: "attendu".
la source