Disons que vous avez un ensemble de valeurs et que vous voulez savoir s'il est plus probable qu'elles aient été échantillonnées à partir d'une distribution gaussienne (normale) ou échantillonnées à partir d'une distribution lognormale?
Bien sûr, idéalement, vous devriez savoir quelque chose sur la population ou sur les sources d'erreur expérimentale, donc vous auriez des informations supplémentaires utiles pour répondre à la question. Mais ici, supposons que nous ayons seulement un ensemble de chiffres et aucune autre information. Quel est le plus probable: échantillonnage à partir d'une gaussienne ou échantillonnage à partir d'une distribution log-normale? Combien plus probable? Ce que j'espère, c'est un algorithme pour sélectionner entre les deux modèles et, espérons-le, quantifier la probabilité relative de chacun.
la source
Réponses:
Vous pouvez faire une meilleure estimation du type de distribution en ajustant chaque distribution (normale ou lognormale) aux données par maximum de vraisemblance, puis en comparant la log-vraisemblance sous chaque modèle - le modèle avec la plus forte probabilité logarithmique étant le meilleur ajustement. Par exemple, dans R:
Maintenant, générez des nombres à partir d'une distribution normale et ajustez une distribution normale par ML:
Produit:
Comparez la log-vraisemblance pour l'ajustement ML des distributions normales et log-normales:
Essayez avec une distribution lognormale:
L'affectation ne sera pas parfaite, selon n, moyenne et sd:
la source
p(X|\theta)
). Nous ne transformons pas les données. Nous imprimons la distribution pour laquelle la probabilité d'observer les données est la plus élevée. Cette approche est légitime mais présente l'inconvénient de ne pas inférer la probabilité du modèle compte tenu des donnéesp(M|X)
, c'est-à-dire la probabilité que les données proviennent d'une distribution normale vs lognormale (par exemple p (normal) = 0,1, p (lognormal) = 0.9) contrairement à l'approche bayésienne.La partie difficile est d'obtenir la probabilité marginale ,
Exemple:
Selon Murphy (2007) (équation 203), la probabilité marginale de la distribution normale est alors donnée par
oùuneN, bN, et vN sont les paramètres de la partie postérieure P( μ , σ2∣ X, M= Normal ) (Équations 196 à 200),
J'utilise les mêmes hyperparamètres pour la distribution log-normale,
Pour une probabilité antérieure de la log-normale de0,1 , P( M= Log-normal ) = 0,1 et des données tirées de la distribution log-normale suivante,
le postérieur se comporte comme ceci:
La ligne continue montre la probabilité postérieure médiane de différents tirages deN points de données. Notez que pour peu ou pas de données, les croyances sont proches des croyances antérieures. Pour environ 250 points de données, l'algorithme est presque toujours certain que les données ont été tirées d'une distribution log-normale.
Lors de la mise en œuvre des équations, ce serait une bonne idée de travailler avec des densités logarithmiques au lieu de densités. Mais sinon, cela devrait être assez simple. Voici le code que j'ai utilisé pour générer les tracés:
https://gist.github.com/lucastheis/6094631
la source
Il semble que vous recherchiez quelque chose d'assez pragmatique pour aider les analystes qui ne sont probablement pas des statisticiens professionnels et qui ont besoin de quelque chose pour les inciter à faire ce qui devrait être des techniques d'exploration standard telles que regarder des parcelles qq, des parcelles de densité, etc.
Dans ce cas, pourquoi ne pas simplement faire un test de normalité (Shapiro-Wilk ou autre) sur les données d'origine, et un sur les données transformées en log, et si la deuxième valeur p est plus élevée, déclenchez un indicateur pour que l'analyste envisage d'utiliser une transformée en log ? En prime, crachez un graphique 2 x 2 du tracé de la ligne de densité et un tracé qqnorm des données brutes et transformées.
Techniquement, cela ne répondra pas à votre question sur la probabilité relative, mais je me demande si c'est tout ce dont vous avez besoin.
la source