Ceci est à la limite d'une question philosophique, mais je suis intéressé par la façon dont d'autres personnes ayant plus d'expérience pensent la sélection de distribution. Dans certains cas, il semble clair que la théorie pourrait mieux fonctionner (les longueurs de queue des souris sont probablement normalement distribuées). Dans de nombreux cas, il n'y a probablement pas de théorie pour décrire un ensemble de données, donc vous utilisez simplement quelque chose qui correspond assez bien à ce que vous avez, indépendamment de ce qu'il a été initialement développé pour décrire? Je peux imaginer quelques-uns des pièges liés à l'un ou l'autre de ceux-ci, et bien sûr, il semble y avoir le problème selon lequel vous devriez peut-être simplement utiliser une distribution empirique si vous n'en avez vraiment aucune idée.
Donc je suppose que ce que je demande vraiment: est-ce que quelqu'un a une manière cohérente d'approcher / de penser à ce problème? Et y a-t-il des ressources que vous pouvez suggérer pour bien traiter cela?
la source
Réponses:
Cela dépend certainement de ce que sont les données en question et de ce que l'on sait ou souhaite en supposer. Comme @whuber l'a dit récemment dans le chat , "Lorsque la loi physique est impliquée, vous pouvez presque toujours faire des suppositions raisonnables sur la manière appropriée de modéliser les données." (Je soupçonne que c'est plus vrai de lui que de moi cependant! Aussi, j'espère que cela n'est pas mal appliqué hors de son contexte d'origine ...) Dans des cas plus comme la modélisation de construction latente en sciences sociales, il est souvent utile de se concentrer sur distributions empiriques comme moyen de comprendre les nuances de phénomènes moins connus. Il est un peu trop facile de supposer une distribution normale et de rejeter les inadaptations dans la forme globale comme négligeables, et il est assez spécieux de rejeter les valeurs aberrantes comme erronées sans plus de justification que ce qu'elles ne font pas.
Bien sûr, une grande partie de ce comportement est motivée par les hypothèses d'analyses que l'on veut appliquer. Souvent, les questions les plus intéressantes vont bien au-delà de la description ou de la classification des distributions de variables. Cela influence également la bonne réponse pour un scénario donné; il peut y avoir des raisons (par exemple, des besoins en énergie ) de supposer une distribution normale lorsqu'elle ne convient pas particulièrement bien (ou ne correspond pas trop mal), car les méthodes non paramétriques et par ailleurs robustes ne sont pas parfaites non plus. Néanmoins, le risque de le faire habituellement est d'oublier de poser les questions intéressantes que l'on peut se poser sur la distribution d'une seule variable.
Par exemple, considérons la relation entre la richesse et le bonheur: une question populaire que les gens veulent généralement poser. Il peut être sûr de supposer que la richesse suit une distribution gamma (Salem et Mount, 1974) ou bêta généralisée (Parker, 1999) , mais est-il vraiment sûr de supposer que le bonheur est normalement distribué? Vraiment, il ne devrait pas être nécessaire de supposer cela du tout simplement pour répondre à la question d'origine, mais les gens le font parfois, puis ignorent les problèmes potentiellement importants tels que le biais de réponse et les différences culturelles. Par exemple, certaines cultures ont tendance à donner des réponses plus ou moins extrêmes (voir la réponse de @ chl sur l' analyse factorielle des questionnaires composés d'articles de Likert ), et les normes varient en ce qui concerne l'expression ouverte des émotions positives et négatives (Tucker, Ozer, Lyubomirsky et Boehm, 2006 ) . Cela peut accroître l'importance des différences dans les caractéristiques de distribution empiriques comme l'asymétrie et le kurtosis. Si je comparais la relation de la richesse aux évaluations subjectives du bonheur en Russie, en Chine et aux États-Unis, je voudrais probablement évaluer les différences dans les tendances centrales des évaluations du bonheur. Ce faisant, j'hésiterais à supposer des distributions normales dans chacune pour le bien d'une ANOVA unidirectionnelle (même si elle peut être assez robuste aux violations) lorsqu'il y a des raisons de s'attendre à une distribution «plus épaisse» en Chine, une distribution faussée positivement en Russie et une distribution faussée aux États-Unis en raison de diverses normes culturelles et de biais de réponse. Pour un test de signification (même si je préfère probablement simplement rapporter la taille des effets, honnêtement), je préfère utiliser une méthode non paramétrique, et pour comprendre réellement le bonheur subjectif dans chaque population individuellement, je décrivez plutôt la distribution de façon empirique plutôt que d'essayer de la catégoriser comme une simple distribution théorique et d'ignorer ou de masquer tout inadéquat. C'est un gaspillage d'informations OMI.
Références
- Parker, SC (1999). Le bêta généralisé comme modèle de distribution des bénéfices. Economics Letters, 62 (2), 197–200.
- Salem, ABZ et Mount, TD (1974). Un modèle descriptif pratique de la distribution des revenus: la densité gamma. Econometrica, 42 (6), 1115–1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S., et Boehm, JK (2006). Test de l'invariance de mesure dans la satisfaction avec l'échelle de vie: une comparaison des Russes et des Nord-Américains. Recherche sur les indicateurs sociaux, 78 (2), 341–360. Extrait de http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .
la source
J'en doute. Les distributions normales résultent de nombreux effets additifs indépendants. Les systèmes biologiques sont constitués de nombreuses boucles de rétroaction en interaction (effets multiplicatifs interdépendants). De plus, certains États sont souvent plus stables que d'autres (par exemple, les attracteurs). Donc, une sorte de distribution à longue queue ou multimodale décrirait probablement les longueurs de queue. En fait, la distribution normale est probablement un très mauvais choix par défaut pour décrire quoi que ce soit de biologique et sa mauvaise utilisation est responsable des nombreuses "valeurs aberrantes" rapportées dans cette littérature. La prévalence de cette distribution dans la nature est un mythe et pas seulement dans le sens "les cercles parfaits n'existent pas vraiment". Cependant, il ne s'ensuit pas que la moyenne et le sd sont inutiles en tant que statistiques sommaires.
L'ajustement de distributions empiriques fournit des indications sur le processus sous-jacent, ce qui facilite le développement de distributions théoriques. Ensuite, la distribution théorique est comparée aux distributions empiriques pour tester les preuves de la théorie.
Si votre objectif est d'évaluer la probabilité de certains résultats sur la base des preuves actuellement disponibles et que vous n'avez aucune raison de choisir cette distribution particulière, je suppose que je ne vois pas en quoi des hypothèses supplémentaires pourraient être utiles. Au lieu de cela, il semble confondre les choses.
Cependant, si vous essayez de décrire ou de résumer les données, il peut être judicieux d'adapter la distribution.
la source
Les longueurs de queue ne sont certainement pas distribuées normalement.
Les distributions normales ont une probabilité non nulle de prendre des valeurs négatives; les longueurs de queue ne le font pas.
La célèbre ligne de George Box , " tous les modèles sont faux, mais certains sont utiles " fait le point assez bien. Les cas où nous pourrions raisonnablement affirmer la normalité (plutôt qu'une simple normalité approximative) sont en effet très rares, presque des créatures de légende, des mirages parfois entrevus presque du coin de l'œil.
Dans les cas où les quantités qui vous intéressent ne sont pas particulièrement sensibles au choix (tant que les grandes caractéristiques de la distribution sont cohérentes avec ce qui est connu), alors oui, vous pouvez simplement utiliser quelque chose qui correspond assez bien.
Dans les cas où il y a un plus grand degré de sensibilité, «utiliser simplement quelque chose qui convient» ne suffit pas à lui seul. Nous pourrions utiliser une approche qui ne fait pas d'hypothèses particulières (peut-être des procédures sans distribution, comme la permutation, le bootstrap ou d'autres approches de rééchantillonnage, ou des procédures robustes). Alternativement, nous pourrions quantifier la sensibilité à l'hypothèse de distribution, par exemple via la simulation (en effet, je pense que c'est généralement une bonne idée).
Je ne décrirais pas cela comme un problème - baser l'inférence sur des distributions empiriques est certainement une approche légitime adaptée à de nombreux types de problèmes (permutation / randomisation et amorçage sont deux exemples).
en gros, dans beaucoup de cas, j'ai tendance à considérer des questions comme:
1) Que dois-je comprendre * sur la façon dont les moyens (ou d'autres quantités de type emplacement) se comportent pour les données de ce formulaire?
* (que ce soit à partir de la théorie ou de l'expérience de cette forme de données, ou des conseils d'experts, ou si nécessaire, à partir des données elles-mêmes, bien que cela pose des problèmes, il faut y faire face)
2) Qu'en est-il de la propagation (variance, IQR, etc.) - comment se comporte-t-elle?
3) Qu'en est-il des autres caractéristiques de distribution (limites, asymétrie, caractère discret, etc.)
4) Qu'en est-il de la dépendance, de l'hétérogénéité des populations, de la tendance à des valeurs parfois très divergentes, etc.
Ce type de considération pourrait guider un choix entre un modèle normal, un GLM, un autre modèle ou une approche robuste ou sans distribution (comme les approches d'amorçage ou de permutation / randomisation, y compris les procédures basées sur le classement)
la source