Je suis un étudiant diplômé développant un intérêt pour les statistiques. J'aime le matériel dans l'ensemble, mais j'ai parfois du mal à penser aux applications dans la vie réelle. Plus précisément, ma question porte sur les distributions statistiques couramment utilisées (normales - bêta-gamma, etc.). Je suppose que dans certains cas, j'obtiens les propriétés particulières qui rendent la distribution assez agréable - propriété sans mémoire d'exponentielle par exemple. Mais pour de nombreux autres cas, je n'ai pas l'intuition de l'importance et des domaines d'application des distributions communes que nous voyons dans les manuels.
Il y a probablement beaucoup de bonnes sources répondant à mes préoccupations, je serais heureux si vous pouviez les partager. Je serais beaucoup plus motivé par le matériau si je pouvais l'associer à des exemples concrets.
EstimatedDistribution
fonction de Mathematica .Réponses:
Wikipedia a une page qui répertorie de nombreuses distributions de probabilités avec des liens vers plus de détails sur chaque distribution. Vous pouvez parcourir la liste et suivre les liens pour avoir une meilleure idée des types d'applications pour lesquelles les différentes distributions sont couramment utilisées.
N'oubliez pas que ces distributions sont utilisées pour modéliser la réalité et comme le disait Box: "tous les modèles sont faux, certains modèles sont utiles".
Voici quelques-unes des distributions courantes et certaines des raisons pour lesquelles elles sont utiles:
Normal: Ceci est utile pour examiner les moyennes et autres combinaisons linéaires (par exemple les coefficients de régression) en raison du CLT. En relation avec cela, si quelque chose est connu pour se produire en raison des effets additifs de nombreuses petites causes différentes, la normale peut être une distribution raisonnable: par exemple, de nombreuses mesures biologiques sont le résultat de plusieurs gènes et de plusieurs facteurs environnementaux et sont donc souvent approximativement normales .
Gamma: droit asymétrique et utile pour les choses avec un minimum naturel à 0. Couramment utilisé pour les temps écoulés et certaines variables financières.
Exponentielle: cas particulier du Gamma. Il est sans mémoire et évolue facilement.
Bêta: définie entre 0 et 1 (mais peut être transformée pour être entre d'autres valeurs), utile pour les proportions ou autres quantités qui doivent être comprises entre 0 et 1.
Binôme: combien de «succès» sur un nombre donné d'essais indépendants avec la même probabilité de «succès».
Poisson: Commun pour les dénombrements. Belles propriétés que si le nombre d'événements dans une période de temps ou une zone suit un Poisson, alors le nombre dans deux fois le temps ou la zone suit toujours le Poisson (avec deux fois la moyenne): cela fonctionne pour ajouter des Poissons ou une mise à l'échelle avec des valeurs autres que 2.
Notez que si les événements se produisent dans le temps et que le temps entre les occurrences suit une exponentielle, le nombre qui se produit dans une période de temps suit un Poisson.
Binôme négatif: compte avec un minimum de 0 (ou une autre valeur selon la version) et sans limite supérieure. Conceptuellement, c'est le nombre d '"échecs" avant k "succès". Le binôme négatif est également un mélange de variables de Poisson dont les moyennes proviennent d'une distribution gamma.
Géométrique: cas particulier du binôme négatif où il s'agit du nombre de "ratés" avant le 1er "succès". Si vous tronquez (arrondissez vers le bas) une variable exponentielle pour la rendre discrète, le résultat est géométrique.
la source
La théorie asymptotique conduit à la distribution normale, aux types de valeurs extrêmes, aux lois stables et au Poisson. L'exponentielle et le Weibull ont tendance à apparaître comme temps paramétrique pour les distributions d'événements. Dans le cas du Weibull, il s'agit d'un type de valeur extrême pour le minimum d'un échantillon. En ce qui concerne les modèles paramétriques pour les observations normalement distribuées, les distributions du chi carré, t et F surviennent dans les tests d'hypothèses et l'estimation de l'intervalle de confiance. Pour étudier la puissance des tests, nous avons les distributions t et F non centrales. La distribution hypergéométrique apparaît dans le test exact de Fisher pour les tableaux de contingence. La distribution binomiale est importante lorsque l'on fait des expériences pour estimer les proportions. Le binôme négatif est une distribution importante pour modéliser la surdispersion dans un processus ponctuel. Cela devrait vous donner un bon départ sur les distributions paramétriques pratiques. Pour les variables aléatoires non négatives sur (0, ∞), la distribution gamma est flexible pour fournir une variété de formes et le log normal est également couramment utilisé. Sur [0,1], la famille bêta fournit des distirbutions symétriques, y compris les distributions uniformes et asymétriques à gauche ou asymétriques à droite.
Je dois également mentionner que si vous voulez connaître tous les détails sur les distributions dans les statistiques, il existe des séries classiques de livres de Johnson et Kotz qui incluent des distributions discrètes, des distributions univariées continues et des distributions multivariées continues ainsi que le volume 1 de la théorie avancée. des statistiques par Kendall et Stuart.
la source
Achetez et lisez au moins les 6 premiers chapitres (218 premières pages) de William J. Feller "An Introduction to Probability Theory and Its Applications, Vol. 2" http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . Lisez au moins tous les problèmes à résoudre, et essayez de préférence d'en résoudre autant que vous le pouvez. Vous n'avez pas besoin d'avoir lu le Vol 1, qui à mon avis n'est pas particulièrement méritoire.
Bien que l'auteur soit décédé il y a 45 ans et demi, avant même la fin du livre, il s'agit simplement du meilleur livre qui soit, sans exception, pour développer une intuition des probabilités et des processus stochastiques, et comprendre et développer une sensation pour diverses distributions , comment ils se rapportent aux phénomènes du monde réel et aux divers phénomènes stochastiques qui peuvent se produire et se produisent. Et avec les bases solides que vous en tirerez, vous serez bien servi en statistiques.
Si vous pouvez le faire à travers les chapitres suivants, ce qui devient un peu plus difficile, vous aurez des années-lumière d'avance sur presque tout le monde. Autrement dit, si vous connaissez Feller Vol 2, vous connaissez la probabilité (et les processus stochastiques); ce qui signifie que tout ce que vous ne savez pas, comme les nouveaux développements, vous serez en mesure de le récupérer et de le maîtriser rapidement en s'appuyant sur cette base solide.
Presque tout ce qui a été mentionné précédemment dans ce fil de discussion se trouve dans Feller Vol 2 (pas tout le matériel dans Kendall Advanced Theory of Statistics, mais la lecture de ce livre sera un morceau de gâteau après Feller Vol 2), et bien plus encore, tout cela d'une manière qui devrait développer votre pensée et votre intuition stochastiques. Johnson and Kotz est bon pour les minuties sur diverses distributions de probabilités, Feller Vol 2 est utile pour apprendre à penser de manière probabiliste, et savoir quoi extraire de Johnson et Kotz et comment l'utiliser.
la source
Juste pour ajouter aux autres excellentes réponses.
la source
Recherches récemment publiéessuggère que la performance humaine n'est PAS normalement distribuée, contrairement à la pensée commune. Les données de quatre domaines ont été analysées: (1) Universitaires dans 50 disciplines, en fonction de la fréquence de publication dans les revues spécialisées les plus importantes. (2) Artistes, tels que comédiens, musiciens et écrivains, et nombre de prix prestigieux, nominations ou distinctions reçues. (3) Politiciens dans 10 pays et résultats des élections / réélections. (4) Athlètes collégiaux et professionnels examinant les mesures les plus individualisées disponibles, telles que le nombre de circuits, les réceptions dans les sports d'équipe et le total des victoires dans les sports individuels. L'auteur écrit: "Nous avons vu une distribution claire et cohérente de la loi de puissance se dérouler dans chaque étude, quelle que soit l'étendue ou la largeur de l'analyse des données ..."
la source