Comment, par exemple, la distribution Gamma peut-elle diverger près de zéro (pour un ensemble approprié de paramètres d'échelle et de forme, disons forme et échelle ), tout en ayant sa surface égale à un?
Si je comprends bien, l'aire d'une distribution de densité de probabilité doit toujours être égale à un. Si vous prenez la distribution delta dirac, qui diverge à zéro mais est nulle ailleurs, vous avez une zone égale à un.
D'une manière ou d'une autre, si vous preniez l'aire d'une distribution Gamma divergente, vous pourriez l'exprimer comme l'aire d'une distribution delta dirac, plus quelque chose de plus car elle a un poids non nul à , elle serait donc plus grande qu'une.
Quelqu'un peut-il m'expliquer où mon raisonnement va mal?
probability
distributions
Delphine
la source
la source
Réponses:
C'est là que votre raisonnement tourne mal: vous ne pouvez pas exprimer automatiquement une fonction infinie à tant que distribution delta plus quelque chose de plus. Après tout, si vous pouviez le faire avec , qui dirait que vous ne pourriez pas le faire aussi avec ? Oux=0 δ(x) 2δ(x) 10−10δ(x) ? Ou tout autre coefficient? Il est tout aussi valable de dire que ces distributions sont nulles pour et infinies à ; pourquoi ne pas utiliser le même raisonnement avec eux?x≠0 x=0
En fait, les distributions (au sens mathématique de la théorie de la distribution) devraient être considérées plus comme des fonctions de fonctions - vous mettez une fonction et en sortez un nombre. Pour la distribution delta en particulier, si vous mettez la fonction , vous obtenez le nombre . Les distributions ne sont pas des fonctions normales de numéro à numéro. Ils sont plus compliqués et plus capables que ces fonctions "ordinaires".f f(0)
Cette idée de transformer une fonction en nombre est bien connue de tous ceux qui ont l'habitude de gérer les probabilités. Par exemple, la série de moments de distribution - moyenne, écart-type, asymétrie, kurtosis, etc. - peut être considérée comme des règles qui transforment une fonction (la distribution de probabilité) en nombre (le moment correspondant). Prenez la valeur moyenne / attente, par exemple. Cette règle transforme une distribution de probabilité en le nombre , calculé comme Ou la règle de la variance devient dans le nombre , oùP(x) EP[x]
Vous remarquerez peut-être quelque chose que ces règles ont en commun: dans chacune d'elles, la manière de passer de la fonction au nombre est d'intégrer la fonction multipliée par une autre fonction de pondération. Il s'agit d'une façon très courante de représenter des distributions mathématiques. Il est donc naturel de se demander s'il existe une fonction de pondération qui vous permet de représenter l'action d'une distribution delta comme celle-ci? Vous pouvez facilement établir que s'il existe une telle fonction, elle doit être égale à à chaque . Mais vous ne pouvez pas obtenir de valeur pourδ(x)
La raison en est que la distribution delta ne se limite pas à cela: Ce " " est trompeur. Il représente un ensemble d'informations supplémentaires sur la distribution delta que les fonctions normales ne peuvent tout simplement pas représenter. Et c'est pourquoi vous ne pouvez pas dire de manière significative que la distribution gamma est "plus" que la distribution delta. Bien sûr, à tout , la valeur de la distribution gamma est supérieure à la valeur de la distribution delta, mais toutes les informations utiles sur la distribution delta sont verrouillées à ce point à , et ces informations sont trop riches et complexe pour vous permettre de dire qu'une distribution est plus que l'autre.
Détails techniques
1 En fait, vous pouvez inverser les choses et considérer la distribution de probabilité elle-même comme la distribution mathématique. En ce sens, la distribution de probabilité est une règle qui prend une fonction de pondération, comme ou , à un nombre, ou respectivement. Si vous y pensez de cette façon, la notation standard a un peu plus de sens, mais je pense que l'idée globale est un peu moins naturelle pour un article sur les distributions mathématiques.x (x−E[x])2 E[x] σ2x
2 Plus précisément, par des « idées standards d'intégration » que je prends à propos de l' intégration Riemann et l' intégration de Lebesgue , qui ont tous deux la propriété que deux fonctions qui ne diffèrent que sur un seul point doit avoir la même intégrale (étant donné les mêmes limites). S'il y avait une fonction , elle différerait de la fonction en un seul point, à savoir , et donc les intégrales des deux fonctions devraient toujours être les mêmes. Il n'y a donc pas de numéro à attribuer qui lui fait reproduire l'effet de la distribution delta.δ(x) 0 x=0
la source
Le delta de Dirac n'est vraiment pas trop utile ici (bien qu'il soit intéressant), car la distribution Gamma a une densité continue, tandis que le Dirac est à peu près aussi non continu que possible.
Vous avez raison de dire que l'intégrale d'une densité de probabilité doit être une (je m'en tiendrai aux densités définies sur l'axe positif uniquement),
Dans le cas Gamma, la densitéf(x) diverge comme x→0 , nous avons donc ce qu'on appelle une intégrale impropre . Dans un tel cas, l'intégrale est définie comme la limite lorsque les limites d'intégration approchent du point où l'intégrande n'est pas définie,
tant que cette limite existe .
(Soit dit en passant, nous utilisons le même abus de notation pour donner un sens au symbole " ", qui est défini comme la limite de l'intégrale comme , encore une fois tant que ce existe . Dans ce cas particulier, nous avons deux points problématiques - , où l'intégrande n'est pas définie, et , où nous ne pouvons pas évaluer l'intégrale directement. Nous devons travailler avec des limites dans les deux cas.)∫∞ ∫b b→∞ 0 ∞
Pour la distribution Gamma en particulier, nous évitons le problème. Nous définissons d'abord la fonction Gamma comme suit:
Nous prouvons ensuite que cette définition a réellement du sens, au sens des différentes limites décrites ci-dessus. Pour simplifier, nous pouvons ici nous en tenir à , bien que la définition puisse être étendue à de (nombreuses) valeurs complexes également. Cette vérification est une application standard du calcul et un bel exercice.k>0 k
Ensuite, on substitue à et par le changement de formule des variables on obtientx:=θy θ>0
d'où nous tirons cela
Autrement dit, l'intégrande s'intègre à un et est donc une densité de probabilité. Nous l'appelons la distribution Gamma avec la forme et l'échelle .k θ
Maintenant, je me rends compte que j'ai vraiment passé la balle ici. La chair de l'argument réside dans le fait que la définition de la fonction Gamma ci-dessus a du sens. Cependant, c'est du calcul simple, pas des statistiques, donc je ne me sens que très légèrement coupable en vous référant à votre manuel de calcul préféré et à la balise de fonction gamma chez Math.SO , en particulier cette question et cette question .
la source
Considérons une densité exponentielle standard et considérons un tracé de vs (panneau de gauche dans le diagramme ci-dessous).f(x)=exp(−x),x>0 y=f(x) x
Vraisemblablement, vous ne trouvez pas insondable qu'il y ait une densité positive pour tous les mais la zone est néanmoins .x>0 1
Échangeons maintenant et ... soit , ou , pour . Maintenant, c'est une densité valide, qui asymptote à l' axe (donc elle n'est pas bornée comme ), mais sa zone est clairement identique à l'exponentielle (c'est-à-dire que la zone sous la courbe doit toujours être 1 - tout ce que nous avons fait était de refléter la forme et la réflexion préservent la zone).x y x=exp(−y) y=−ln(x) 0<x≤1 y x→0
Il est donc clair que les densités peuvent être illimitées mais ont une zone 1.
la source
Il s'agit vraiment d'une question de calcul plutôt que de statistiques. Vous vous demandez comment une fonction qui va à l'infini à certaines valeurs de son argument peut encore avoir une zone finie sous la courbe?
C'est une question valable. Par exemple, si au lieu de la fonction Gamma vous avez pris une hyperbole: , pour alors la zone sous la courbe ne converge pas, elle est infinie.y=1/x x=[0,∞)
Il est donc assez miraculeux qu'une somme pondérée de très grands nombres, voire d'infinis, converge vers un nombre fini. La somme est pondérée car si vous regardez la définition intégrale de Riemann, il peut s'agir d'une somme comme celle-ci: Donc, selon les points vous choisissez, les poids peuvent être petits ou grands. Lorsque vous vous rapprochez de 0, devient plus grand, mais devient plus petit. Dans cette compétition, gagne et l'intégrale ne converge pas.
Pour la distribution Gamma, cela se produit de sorte que rétrécit plus rapidement que Gamma PDF ne se développe, et la zone finit par être finie. C'est du calcul simple pour voir exactement comment il converge vers 1.Δxi
la source
Regardez l'exemple suivant. Notez que pour tout finiN ,
maislog(0) est indéfini donc l'intégrale est ∞ dans un certain sens (cela a une limite, mais ignorez-le). Mais
En général, cela est basé sur l'idée que
donc si le théorème fondamental du calcul vous dit que l'intégrale est finie. L'idée est donc qu'elle diverge suffisamment lentement (où est la vitesse) pour que la zone soit toujours délimitée.1−p>0 p
Ceci est similaire à la convergence des séries. Rappelons que par le test p nous avons
converges if and only ifp>1 . In this case we need xp→∞ fast enough, where once again p is the speed and 1 is the turning point.
Why can this be an actual thing? Think about the Koch snowflake. In this example you keep on adding the the perimeter of the snowflake in such a way that the area is growing slowly. This is due to the fact that if you make an equilateral triangle with sides of size13 , the perimeter is 1 while the area is 1123√∼0.05 . Since the area is so much smaller than the perimeter (it is the multiplication of two small numbers instead of the addition!) you can choose to add triangles in such a way that the perimeter goes to infinity while the area stays finite. To do so you have to choose a speed at which the triangles go to zero, and as you probably guessed by now, there is a speed where it switches from being too slow and giving infinite area to being fast enough to giving finite area.
In total, calculus tells us that not all singularities (that what these "go to infinity points" like zero are) are the same. There are huge differences based on the "local speed" of the singularity.Γ simply has a singularity which is "slow enough" that the area if finite. If you want to learn more about the "why" singularities work like this, you can delve into a lot more detail in Complex Analysis and its study of the singularities of complex analytic functions (of which Γ is).
la source