Comment normaliser les données de distribution inconnue

12

J'essaie de trouver la distribution caractéristique la plus appropriée des données de mesures répétées d'un certain type.

Essentiellement, dans ma branche de la géologie, nous utilisons souvent la datation radiométrique des minéraux à partir d'échantillons (morceaux de roche) afin de savoir depuis combien de temps un événement s'est produit (la roche s'est refroidie en dessous d'une température seuil). En règle générale, plusieurs (3-10) mesures seront effectuées à partir de chaque échantillon. Ensuite, la moyenne et l'écart type sont pris. C'est la géologie, donc les âges de refroidissement des échantillons peuvent varier de à ans, selon la situation.σ 10 5 10 9μσdix5dix9

Cependant, j'ai des raisons de croire que les mesures ne sont pas gaussiennes: les «valeurs aberrantes», déclarées arbitrairement, ou selon un critère tel que le critère de Peirce [Ross, 2003] ou le test Q de Dixon [Dean et Dixon, 1951] , sont assez commune (disons, 1 sur 30) et celles-ci sont presque toujours plus anciennes, ce qui indique que ces mesures sont typiquement asymétriques à droite. Il y a des raisons bien connues pour cela d'avoir à faire avec les impuretés minéralogiques.

Âge moyen vs médian de l'échantillon.  La ligne rouge indique la moyenne = médiane.  Notez les moyennes plus anciennes causées par des mesures asymétriques.

Par conséquent, si je peux trouver une meilleure distribution, qui intègre les queues grasses et l'inclinaison, je pense que nous pouvons construire des paramètres de localisation et d'échelle plus significatifs, et ne pas avoir à se débarrasser des valeurs aberrantes si rapidement. C'est-à-dire s'il peut être démontré que ces types de mesures sont log-normaux, ou log-laplaciens, ou autre, alors des mesures de probabilité maximale plus appropriées peuvent être utilisées que et , qui sont non robustes et peut-être biaisées dans le cas de données systématiquement asymétriques à droite.σμσ

Je me demande quelle est la meilleure façon de procéder. Jusqu'à présent, j'ai une base de données avec environ 600 échantillons et 2 à 10 (ou plus) mesures répétées par échantillon. J'ai essayé de normaliser les échantillons en divisant chacun par la moyenne ou la médiane, puis en regardant les histogrammes des données normalisées. Cela produit des résultats raisonnables et semble indiquer que les données sont en quelque sorte log-laplaciennes:

entrez la description de l'image ici

Cependant, je ne sais pas si c'est la bonne façon de procéder, ou s'il y a des mises en garde que je ne connais pas qui peuvent fausser mes résultats afin qu'ils ressemblent à ceci. Quelqu'un a-t-il de l'expérience avec ce genre de choses et connaît-il les meilleures pratiques?

cossatot
la source
4
Puisque «normaliser» est utilisé pour signifier plusieurs choses différentes dans des contextes comme celui-ci, qu'entendez-vous précisément par «normaliser»? Quelles informations essayez-vous d'obtenir des données?
Glen_b -Reinstate Monica
1
@Glen_b: Par «normaliser», j'entends simplement la mise à l'échelle des choses par la médiane (ou la moyenne) de tous les âges mesurés d'un échantillon par la médiane (ou la moyenne, ou autre). Il existe des preuves expérimentales que la dispersion dans les échantillons augmente linéairement avec l'âge. Ce que je veux des données, c'est de voir si ce type de mesure se caractérise le mieux par une distribution normale, ou log-normale, ou bêta, ou quelque distribution que ce soit, de sorte que l'emplacement et l'échelle les plus précis puissent être dérivés, ou L1 par rapport à Régression L2 justifiée, etc. Dans cet article, je demande comment je peux prendre les données que j'ai décrites et enquêter sur cela.
cossatot
1
Je n'ai aucune expertise dans ce domaine, mais vos graphiques et la pensée que vous y mettez semblent bons. Vous l'avez peut-être déjà vu, mais l'article de Wikipédia sur Log-Laplace renvoie à un beau papier, qui ne répond pas directement à votre question, mais pourrait avoir des idées intéressantes: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne
Je ne suis pas sûr de bien comprendre, mais peut-être que l'amorçage pourrait aider? Si vous récupérez la variance, etc. de votre distribution à l'aide de méthodes d'amorçage, vous pouvez utiliser les informations récupérées pour normaliser vos données. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Réponses:

1

Avez-vous envisagé de prendre la moyenne des mesures (3-10) de chaque échantillon? Pouvez-vous alors travailler avec la distribution résultante - qui se rapprochera de la distribution t, qui se rapprochera de la distribution normale pour un n plus grand?

Michael P
la source
1

Je ne pense pas que vous utilisez normaliser pour signifier ce que cela signifie normalement, ce qui est généralement quelque chose comme normaliser la moyenne et / ou la variance, et / ou le blanchiment, par exemple.

Je pense que ce que vous essayez de faire est de trouver une reparamétrisation non linéaire et / ou des fonctionnalités qui vous permettent d'utiliser des modèles linéaires sur vos données.

Ceci n'est pas anodin et n'a pas de réponse simple. C'est pourquoi les scientifiques des données sont payés beaucoup d'argent ;-)

Une façon relativement simple de créer des entités non linéaires consiste à utiliser un réseau neuronal à action directe, où le nombre de couches et le nombre de neurones par couche contrôlent la capacité du réseau à générer des entités. Plus grande capacité => plus de non-linéarité, plus de sur-ajustement. Capacité inférieure => plus de linéarité, biais plus élevé, variance plus faible.

Une autre méthode qui vous donne un peu plus de contrôle consiste à utiliser des splines.

Enfin, vous pouvez créer de telles fonctionnalités à la main, ce que je pense que c'est ce que vous essayez de faire, mais ensuite, il n'y a pas de réponse simple `` boîte noire '': vous devrez analyser soigneusement les données, rechercher des modèles, etc. .

Hugh Perkins
la source
Normaliser a plusieurs significations dans les mathématiques et les sciences; déclarer que le sens le plus familier est la norme est ce que la plupart des gens sont tentés de faire, mais cela ne se lavera pas avec les autres. Plus sérieusement, cela commence sur le sujet mais s'éloigne ensuite. Où est l'indication d'intérêt pour les modèles non linéaires? Filets neuronaux? Splines? Qu'est-ce que cela a à voir avec l'identification d'une distribution ou d'une famille de distributions, quelle est la question? Je ne vois pas la connexion, je vous conseille donc de couper ce qui n'est pas pertinent ou de l'étendre pour montrer comment il est pertinent.
Nick Cox