Je remarque dans les méthodes statistiques / machine learning, une distribution est souvent approximée par un gaussien, puis que le gaussien est utilisé pour l'échantillonnage. Ils commencent par calculer les deux premiers moments de la distribution et les utilisent pour estimer et . Ensuite, ils peuvent échantillonner à partir de ce gaussien.
Il me semble que plus je calcule de moments, mieux je devrais pouvoir approximer la distribution que je souhaite échantillonner.
Et si je calcule 3 moments ... comment puis-je les utiliser pour échantillonner à partir de la distribution? Et cela peut-il être étendu à N moments?
probability
sampling
moments
curious_dan
la source
la source
Réponses:
Trois moments ne déterminent pas une forme de distribution; si vous choisissez une distribution-famille avec trois paramètres qui se rapportent aux trois premiers moments de la population, vous pouvez faire l'appariement des moments ("méthode des moments") pour estimer les trois paramètres, puis générer des valeurs à partir d'une telle distribution. Il existe de nombreuses distributions de ce type.
Parfois, même avoir tous les moments n'est pas suffisant pour déterminer une distribution. Si la fonction de génération de moment existe (dans un voisinage de 0), alors elle identifie de manière unique une distribution (vous pouvez en principe faire une transformation de Laplace inverse pour l'obtenir).
[Si certains moments ne sont pas finis, cela signifierait que le mgf n'existe pas, mais il y a aussi des cas où tous les moments sont finis mais le mgf n'existe toujours pas dans un voisinage de 0.]
Étant donné qu'il existe un choix de distributions, on pourrait être tenté d'envisager une solution d'entropie maximale avec la contrainte sur les trois premiers moments, mais il n'y a pas de distribution sur la ligne réelle qui l'atteint (car le cube résultant dans l'exposant sera illimité).
Comment le processus fonctionnerait pour un choix de distribution spécifique
On peut simplifier le processus d'obtention d' un appariement de distribution trois moments en ignorant la moyenne et la variance et de travailler avec un troisième moment mis à l' échelle - le moment-dissymétrie (γ1=μ3/μ3/22 ).
Nous pouvons le faire car après avoir sélectionné une distribution avec l'asymétrie pertinente, nous pouvons ensuite reculer la moyenne et la variance souhaitées par mise à l'échelle et décalage.
Prenons un exemple. Hier, j'ai créé un grand ensemble de données (qui se trouve toujours être dans ma session R) dont je n'ai pas essayé de calculer la forme fonctionnelle (c'est un grand ensemble de valeurs du journal de la variance d'échantillon d'un Cauchy à n = 10). Nous avons les trois premiers moments bruts respectivement à 1,519, 3,597 et 11,479, ou en conséquence une moyenne de 1,518, un écart-type * de 1,136 et une asymétrie de 1,429 (ce sont donc des valeurs d'échantillon d'un grand échantillon).
Formellement, la méthode des moments tenterait de faire correspondre les moments bruts, mais le calcul est plus simple si nous commençons par l'asymétrie (transformer la résolution de trois équations en trois inconnues en résolution d'un paramètre à la fois, une tâche beaucoup plus simple).
* Je vais effacer la distinction entre l'utilisation d'un n-dénominateur sur la variance - comme cela correspondrait à la méthode formelle des moments - et un n-1 dénominateur et utiliser simplement des exemples de calculs.
Mais nous aurions pu aussi facilement choisir une distribution gamma décalée ou une distribution Weibull décalée (ou un F décalé ou un certain nombre d'autres choix) et suivre essentiellement le même processus. Chacun d'eux serait différent.
[Pour l'échantillon dont je parlais, un gamma décalé aurait probablement été un bien meilleur choix qu'un lognormal décalé, car la distribution des journaux des valeurs était laissée de travers et la distribution de leur racine cubique était très proche de symétrique; ceux-ci sont cohérents avec ce que vous verrez avec des densités gamma (non décalées), mais une densité asymétrique à gauche des bûches ne peut pas être obtenue avec une log-normale décalée.]
On pourrait même prendre le diagramme d'asymétrie-kurtosis dans un tracé de Pearson et tracer une ligne à l'asymétrie souhaitée et ainsi obtenir une distribution en deux points, une séquence de distributions bêta, une distribution gamma, une séquence de distributions bêta-prime, un inverse- la distribution gamma et une séquence de distributions de Pearson de type IV, toutes avec la même asymétrie.
Plus de moments
Les moments n'épinglent pas très bien les distributions, donc même si vous spécifiez de nombreux moments, il y aura toujours beaucoup de distributions différentes (en particulier par rapport à leur comportement extrême) qui leur correspondront.
Vous pouvez bien sûr choisir une famille de distribution avec au moins quatre paramètres et tenter de faire correspondre plus de trois moments; par exemple, les distributions de Pearson ci-dessus nous permettent de faire correspondre les quatre premiers moments, et il existe d'autres choix de distributions qui permettraient un degré de flexibilité similaire.
On peut adopter d'autres stratégies pour choisir des distributions qui peuvent correspondre aux caractéristiques distributionnelles - distributions de mélange, modélisation de la densité logarithmique à l'aide de splines, etc.
Souvent, cependant, si l'on revient à l'objectif initial pour lequel on essayait de trouver une distribution, il s'avère souvent qu'il y a quelque chose de mieux qui peut être fait que le type de stratégie décrit ici.
la source
Donc, la réponse est généralement NON, vous ne pouvez pas le faire, mais parfois vous le pouvez.
Quand tu ne peux pas
Les raisons pour lesquelles vous ne pouvez pas le faire sont généralement deux fois.
Premièrement, si vous avez N observations, vous pouvez tout au plus calculer N moments. Et les autres moments? Vous ne pouvez pas simplement les mettre à zéro.
Quand tu peux
Maintenant, vous pouvez parfois obtenir la distribution à partir de moments. C'est quand vous faites une hypothèse sur la distribution d'une sorte. Par exemple, vous déclarez que c'est normal. Dans ce cas, vous n'avez besoin que de deux moments, qui peuvent généralement être calculés avec une précision décente. Notez que la distribution normale a des moments plus élevés, en effet, par exemple kurtosis, mais nous n'en avons pas besoin. Si vous deviez calculer tous les moments de la distribution normale (sans supposer que ce soit normal), puis essayer de récupérer la fonction caractéristique à échantillonner à partir de la distribution, cela ne fonctionnerait pas. Cependant, lorsque vous oubliez les moments supérieurs et que vous vous en tenez aux deux premiers, cela fonctionne.
la source