Les CDF sont-ils plus fondamentaux que les PDF?

43

Mon stat prof dit, en gros, si l’un des trois suivants est donné, vous pouvez trouver les deux autres:

  • Fonction de distribution cumulative
  • Fonction de génération de moment
  • Fonction de densité de probabilité

Mais mon professeur d'économétrie a déclaré que les CDF sont plus fondamentaux que les PDF car il existe des exemples dans lesquels vous pouvez avoir un CDF mais le PDF n'est pas défini.

Les CDF sont-ils plus fondamentaux que les PDF? Comment savoir si un PDF ou un MGF peut être dérivé d'un CDF?

Stan Shunpike
la source
23
Est-ce une sorte de concours de fondamentalité? Avons-nous un panel de juges de célébrités? Ces trois concepts peuvent être utilisés pour définir une mesure sur un espace . Toutefois, pour un CDF donné, MGF et PDF peuvent ne pas exister, car PDF est défini comme un dérivé de CDF, et MGF est défini comme un R exp ( t x ) d F ( x ) , et cette intégrale n'est pas nécessairement existante. Cependant, cela ne signifie pas qu’un de ces concepts est moins fondamental. Fondamental est un adjectif sympathique qui n’a pas de définition mathématique. C'est un synonyme important. RdRexp(tX)F(X)
Mpiktas
6
@mpiktas: chaque distribution de probabilité sur (un sous-ensemble de) a un CDF et définit de manière unique la distribution. Cependant, toutes les distributions de probabilité n'ont pas un fichier PDF ou un fichier MGF (mais elles ont toutes une fonction caractéristique ). Rn
Ilmari Karonen
3
@mpiktas Vous pourriez le faire avec sur R . Alors P ( ( - , x ] ) n’est pas défini. Néanmoins, je comprends parfaitement pourquoi le professeur a utilisé l’expression "plus fondamental". L’adjectif n’a peut-être pas de sens mathématique bien défini, mais quoi? Je parle (certains ) Anglais aussi. Tous les fichiers PDF que nous connaissons ont un CDF sous-jacent. Ici "sous-jacent" a une belle association avec "fondamental". Le contraire est fauxA={R,}RP((,x])
drhab
2
@drhab, naturellement, je parlais du dérivé de Radon-Nikodym :) Je comprends aussi parfaitement ce que le professeur avait à l'esprit, mais à mon avis, il est dangereux d'utiliser de telles expressions avec les étudiants, car au lieu d'essayer de comprendre la différence concepts mathématiques, ils essaient de les classer en fonction de la fondamentalité, ce qui est fondamentalement faux. Jeu de mots intentionnel.
Mpiktas
4
@mpiktas: bien sûr, il n'y a pas de définition précise de «fondamental». Mais il existe un grand compromis entre «rigoureusement défini» et «totalement dénué de sens». Bien sûr, dans nos mathématiques mêmes, tout doit être complètement rigoureux. Nous sommes donc très habitués à gifler ce qui ne l’est pas. Mais lorsque nous parlons et pensons aux mathématiques, nous avons des notions subjectives et pourtant significatives telles que «fondamental», «général», etc., comme tout le monde. et ce n'est pas grave.
PLL

Réponses:

69

Chaque distribution de probabilité sur (un sous-ensemble de) a une fonction de distribution cumulative et définit de manière unique la distribution. Donc, dans ce sens, le CDF est en effet aussi fondamental que la distribution elle-même.Rn

Une fonction de densité de probabilité , cependant, n'existe que pour les distributions de probabilité (absolument) continues . L'exemple le plus simple d'une distribution dépourvue de PDF est une distribution de probabilité discrète , telle que la distribution d'une variable aléatoire ne prenant que des valeurs entières.

Bien entendu, de telles distributions de probabilité discrètes peuvent être caractérisées par une fonction de masse de probabilité , mais il existe également des distributions qui n'ont ni PDF ni PMF, telles que tout mélange d'une distribution continue et d'une distribution discrète:

Diagramme des distributions de probabilité continues, discrètes et mixtes
(Diagramme volé sans vergogne de la réponse de Glen_b à une question connexe.)

Il existe même des distributions de probabilité singulières , telles que la distribution de Cantor , qui ne peuvent même pas être décrites par une combinaison de PDF et de PMF. Toutefois, ces distributions ont toujours un CDF bien défini. Par exemple, voici le CDF de la distribution Cantor, également appelé parfois "l'escalier du diable":

CDF distribution Cantor
( Image tirée de Wikimedia Commons par les utilisateurs Theon et Amirki , utilisée sous la licence CC-By-SA 3.0 .)

La fonction CDF, appelée fonction Cantor , est continue mais pas absolument continue. En fait, il est constant partout sauf sur un ensemble Cantor de zéro Lebesgue, mais qui contient toujours une infinité de points. Ainsi, toute la masse de probabilité de la distribution de Cantor est concentrée sur ce sous-ensemble extrêmement petit de la droite numérique, mais chaque point de l'ensemble a toujours une probabilité nulle.


Il existe également des distributions de probabilité qui n'ont pas de fonction génératrice de moment . L'exemple le plus connu est probablement la distribution de Cauchy , une distribution à la queue grasse qui n'a pas de moments bien définis d'ordre 1 ou supérieur (donc, en particulier, n'ayant pas de moyenne ni de variance bien définies!).

Cependant, toutes les distributions de probabilité sur ont une fonction caractéristique (éventuellement à valeur complexe ), dont la définition ne diffère de celle du facteur MGF que par une multiplication avec l' unité imaginaire . Ainsi, la fonction caractéristique peut être considérée comme aussi fondamentale que la fonction CDF.Rn

Ilmari Karonen
la source
Vous dites que toutes les distributions ont des CDF, mais pas toutes les PDF, mais en réalité, il y a des distributions qui ont des PDF et qui ne possèdent pas de CDF sous forme fermée, par exemple une multivariée normale.
Tim
13
@ Tim: C'est vrai, mais seulement avec le qualificatif "formulaire fermé"; le CDF existe toujours, même si nous ne pouvons pas l'écrire sous forme fermée. Et dans tous les cas, la définition d'une " expression sous forme fermée " est notoirement floue; Selon certaines définitions strictes, même la distribution normale univariée n’a pas de CDF sous forme fermée, mais si vous considérez que la fonction d’erreur est sous forme fermée, elle l’est.
Ilmari Karonen
11
@ Tim Ce n'est pas un contre-exemple. C'est une propriété arbitraire que vous avez choisie comme étant importante / fondamentale pour vous. Pour moi, la propriété "existe" est plus importante que "a forme fermée". Plus encore, "existe toujours" par opposition à "peut parfois ne pas avoir une forme fermée, comme n'importe quelle fonction".
Ark-kun
3
[0,1]R
1
@ Ark-kun Je me fais l'avocat du diable ici, car il existe des cas où PDF est quelque chose de plus "directement disponible" que CDF. J'aime cette réponse (+1), mais à mon humble avis, c’est quelque chose qui pourrait également être mentionné.
Tim
16

Je crois que votre professeur d'économétrie pensait quelque chose dans le sens suivant.

F[0,1]

F(X)=12X pour X<12
F(X)=12X+12 pour X12

[0,1]

P({12})=12

F

F

Par la définition d'un PDF, il faut avoir

0XF(t)t=F(X)-F(0)=14X

0<X<12

F(X)=14 pour X<12

X>12

F(X)=14 pour X>12

FF(12)F(12)

P({12})=12

nous aurions besoin

12-ε12+εF(t)t>12

12

12-ε12+εF(t)t=12-ε12+ε14t=12ε

F

Vous pouvez récupérer l'esprit d'un PDF, mais vous devez utiliser des objets mathématiques plus sophistiqués, soit une mesure, soit une distribution .

Matthew Drury
la source
3
12δ(X-12)δ(X)X=0
-+δ(X)X=1
2
L1
@IwillnotexistIdonotexist Ce que whuber a dit est ce à quoi je faisais allusion dans la dernière ligne. J'ai utilisé le mot "distribution".
Matthew Drury
4
1/21/2
4

Ilmari donne une bonne réponse d'un point de vue théorique. Cependant, on peut aussi se demander à quoi servent la densité (pdf) et la fonction de distribution (pdf) pour des calculs pratiques. Cela pourrait préciser pour quelles situations l’une est plus directement utile que l’autre.

R(-,X]--

La densité est toutefois essentielle pour les statistiques, car la probabilité est définie en termes de densité. Ainsi, si nous voulons calculer l'estimation du maximum de vraisemblance, nous avons directement besoin de la densité.

Si nous nous tournons vers la comparaison d’une distribution empirique et d’une distribution théorique, les deux peuvent être utiles, mais des méthodes telles que les diagrammes pp et qq basées sur la fonction de distribution sont souvent préférées.

R2

NRH
la source