J'essaie de trouver la distribution caractéristique la plus appropriée des données de mesures répétées d'un certain type.
Essentiellement, dans ma branche de la géologie, nous utilisons souvent la datation radiométrique des minéraux à partir d'échantillons (morceaux de roche) afin de savoir depuis combien de temps un événement s'est produit (la roche s'est refroidie en dessous d'une température seuil). En règle générale, plusieurs (3-10) mesures seront effectuées à partir de chaque échantillon. Ensuite, la moyenne et l'écart type sont pris. C'est la géologie, donc les âges de refroidissement des échantillons peuvent varier de à ans, selon la situation.σ 10 5 10 9
Cependant, j'ai des raisons de croire que les mesures ne sont pas gaussiennes: les «valeurs aberrantes», déclarées arbitrairement, ou selon un critère tel que le critère de Peirce [Ross, 2003] ou le test Q de Dixon [Dean et Dixon, 1951] , sont assez commune (disons, 1 sur 30) et celles-ci sont presque toujours plus anciennes, ce qui indique que ces mesures sont typiquement asymétriques à droite. Il y a des raisons bien connues pour cela d'avoir à faire avec les impuretés minéralogiques.
Par conséquent, si je peux trouver une meilleure distribution, qui intègre les queues grasses et l'inclinaison, je pense que nous pouvons construire des paramètres de localisation et d'échelle plus significatifs, et ne pas avoir à se débarrasser des valeurs aberrantes si rapidement. C'est-à-dire s'il peut être démontré que ces types de mesures sont log-normaux, ou log-laplaciens, ou autre, alors des mesures de probabilité maximale plus appropriées peuvent être utilisées que et , qui sont non robustes et peut-être biaisées dans le cas de données systématiquement asymétriques à droite.σ
Je me demande quelle est la meilleure façon de procéder. Jusqu'à présent, j'ai une base de données avec environ 600 échantillons et 2 à 10 (ou plus) mesures répétées par échantillon. J'ai essayé de normaliser les échantillons en divisant chacun par la moyenne ou la médiane, puis en regardant les histogrammes des données normalisées. Cela produit des résultats raisonnables et semble indiquer que les données sont en quelque sorte log-laplaciennes:
Cependant, je ne sais pas si c'est la bonne façon de procéder, ou s'il y a des mises en garde que je ne connais pas qui peuvent fausser mes résultats afin qu'ils ressemblent à ceci. Quelqu'un a-t-il de l'expérience avec ce genre de choses et connaît-il les meilleures pratiques?
Réponses:
Avez-vous envisagé de prendre la moyenne des mesures (3-10) de chaque échantillon? Pouvez-vous alors travailler avec la distribution résultante - qui se rapprochera de la distribution t, qui se rapprochera de la distribution normale pour un n plus grand?
la source
Je ne pense pas que vous utilisez normaliser pour signifier ce que cela signifie normalement, ce qui est généralement quelque chose comme normaliser la moyenne et / ou la variance, et / ou le blanchiment, par exemple.
Je pense que ce que vous essayez de faire est de trouver une reparamétrisation non linéaire et / ou des fonctionnalités qui vous permettent d'utiliser des modèles linéaires sur vos données.
Ceci n'est pas anodin et n'a pas de réponse simple. C'est pourquoi les scientifiques des données sont payés beaucoup d'argent ;-)
Une façon relativement simple de créer des entités non linéaires consiste à utiliser un réseau neuronal à action directe, où le nombre de couches et le nombre de neurones par couche contrôlent la capacité du réseau à générer des entités. Plus grande capacité => plus de non-linéarité, plus de sur-ajustement. Capacité inférieure => plus de linéarité, biais plus élevé, variance plus faible.
Une autre méthode qui vous donne un peu plus de contrôle consiste à utiliser des splines.
Enfin, vous pouvez créer de telles fonctionnalités à la main, ce que je pense que c'est ce que vous essayez de faire, mais ensuite, il n'y a pas de réponse simple `` boîte noire '': vous devrez analyser soigneusement les données, rechercher des modèles, etc. .
la source
Vous pouvez essayer d'utiliser la famille de distributions de Johnson (SL, SU, SB, SN) qui sont des distributions de probabilité à quatre paramètres. Chaque distribution représente la transformation vers la distribution normale.
la source