J'ai la population d'échantillon des maxima d'amplitude enregistrés d'un certain signal. La population est d'environ 15 millions d'échantillons. J'ai produit un histogramme de la population, mais je ne peux pas deviner la distribution avec un tel histogramme.
EDIT1: le fichier contenant les valeurs brutes des échantillons est ici: données brutes
Quelqu'un peut-il aider à estimer la distribution avec l'histogramme suivant:
distributions
histogram
mbaitoff
la source
la source
Réponses:
Utilisez fitdistrplus:
Voici le lien CRAN vers fitdistrplus.
Voici l' ancien lien de vignette pour fitdistrplus.
Si le lien de la vignette ne fonctionne pas, effectuez une recherche sur «Utilisation de la bibliothèque fitdistrplus pour spécifier une distribution à partir des données».
La vignette explique bien comment utiliser le package. Vous pouvez voir comment les différentes distributions s’adaptent en peu de temps. Il produit également un diagramme de Cullen / Frey.
la source
plotdist
comamnd? Comment puis-je obtenir le diagramme de Cullen / Frey?descdist()
. J'ai mis à jour le message ci-dessus pour inclure du code et un lien vers l'ancienne vignette. Je n'ai pas pu faire fonctionner le lien de vignette ci-dessus. Donc, Google ce qui suit: "Utilisation de la bibliothèque fitdistrplus pour spécifier une distribution à partir des données". Il s'agit d'un fichier .pdf.f1g <- fitdist(x1, "gamma")
adapte une distribution gamma aux données d'originex1
et la stockef1g
. Le graphique supérieur gaucheplot(f1g)
montre un histogramme pour les données originalesx1
sous forme de barres et le tracé de densité gamma ajusté à partirf1g
de la ligne continue. Le tracé de densité (ligne continue) est tracé sur l'histogramme pour indiquer dans quelle mesure le "fit" représente les données.Vous pourrez alors très probablement rejeter toute distribution particulière d'un formulaire simple et fermé.
Même cette petite bosse à gauche du graphique suffira probablement à nous faire dire «clairement pas tel ou tel».
D'un autre côté, il est probablement assez bien approximé par un certain nombre de distributions communes; les candidats évidents sont des choses comme lognormal et gamma, mais il y en a une foule d'autres. Si vous regardez le journal de la variable x, vous pouvez probablement décider si le lognormal est correct à vue (après avoir pris les journaux, l'histogramme doit être symétrique).
Si le journal est asymétrique à gauche, demandez-vous si le gamma est correct, s'il est asymétrique à droite, demandez-vous si le gamma inverse ou (encore plus asymétrique) le gaussien inverse est correct. Mais cet exercice consiste plus à trouver une distribution suffisamment proche pour vivre avec; aucune de ces suggestions n'a réellement toutes les fonctionnalités qui semblent y être présentes.
Si vous avez une théorie pour appuyer un choix, jetez toute cette discussion et utilisez-la.
la source
Je ne sais pas pourquoi vous voudriez classer un échantillon dans une distribution spécifique avec une taille d'échantillon aussi grande; parcimonie, le comparer à un autre échantillon, à la recherche d'une interprétation physique des paramètres?
La plupart des progiciels statistiques (R, SAS, Minitab) permettent de tracer des données sur un graphique qui produit une ligne droite si les données proviennent d'une distribution particulière. J'ai vu des graphiques qui donnent une ligne droite si les données sont normales (log normal-après une transformation logarithmique), Weibull et chi-carré viennent au mien immédiatement. Cette technique vous permettra de voir les valeurs aberrantes et vous donnera la possibilité d'attribuer des raisons pour lesquelles les points de données sont des valeurs aberrantes. Dans R, le tracé de probabilité normal est appelé qqnorm.
la source