Une distribution normale, mais fortement asymétrique, est-elle considérée comme gaussienne?

12

J'ai cette question: à votre avis, à quoi ressemble la répartition du temps passé par jour sur YouTube?

Ma réponse est qu'elle est probablement distribuée normalement et très biaisée à gauche. Je m'attends à ce qu'il y ait un mode où la plupart des utilisateurs passent environ un certain temps moyen, puis une longue queue droite, car certains utilisateurs sont des utilisateurs puissants.

Est-ce une réponse juste? Y a-t-il un meilleur mot pour cette distribution?

Cauder
la source
4
Comme certaines réponses le mentionnent mais ne le soulignent pas, l'asymétrie est nommée de manière informelle pour la queue la plus longue s'il y en a une, donc asymétrique vers la droite si la queue droite est plus longue. Gauche et droite telles qu'utilisées dans ce contexte supposent toutes deux un affichage suivant une convention selon laquelle l'amplitude est indiquée sur l'axe horizontal. Si cela semble trop évident, envisagez des affichages dans les sciences de la Terre et de l'environnement dans lesquels l'amplitude est la hauteur ou la profondeur et montrés verticalement. Petits caractères: certaines mesures d'asymétrie peuvent être nulles même si une distribution est asymétrique géométriquement.
Nick Cox
1
Temps total par jour pour tous les utilisateurs? ou le temps par jour et par personne? Dans ce dernier cas, il y a sûrement un pic modérément grand à 0, auquel cas vous avez probablement besoin d'une distribution de style «pic et dalle» avec un delta de Dirac à 0.
innisfree
6
"Normal" est synonyme de "gaussien", et les distributions gaussiennes, également appelées distributions normales, ne sont pas biaisées.
Michael Hardy
Je trouve la question dans le titre très différente de la question dans le corps du texte. Ou du moins, le titre est très déroutant. Aucune distribution n'est «normale mais fortement asymétrique», ce qui est contradictoire. De plus, la distribution gaussienne est très bien définie et pas du tout comme la répartition du temps passé par jour sur YouTube. La réponse à la question du titre est donc un grand non. f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus
2
aussi, la question à la fin "y a-t-il un meilleur mot pour cette distribution?" est très vague ou large. L'information ne semble être qu'un «mode unique» et «une longue queue droite» (la partie «probablement normalement distribuée» n'a aucun sens). Il peut y avoir de nombreuses distributions qui remplissent ces conditions. Il est étonnant que cette question attire plus de dix réponses et au moins autant de propositions pour la distribution alternative avant d'essayer de clarifier la question (il n'y a même pas de données).
Sextus Empiricus

Réponses:

14

Une fraction par jour n'est certainement pas négative. Cela exclut la distribution normale, qui a une masse de probabilité sur tout l'axe réel - en particulier sur la moitié négative.

Distribution des lois de puissance sont souvent utilisées pour modéliser des choses comme la distribution des revenus, la taille des villes, etc. Elles sont non négatives et généralement très asymétriques. Ce serait la première fois que j'essaierais de modéliser le temps passé à regarder YouTube. (Ou suivi des questions CrossValidated.)

Plus d'informations sur les lois de puissance peuvent être trouvées ici ou ici , ou dans notre étiquette de .

Stephan Kolassa
la source
16
Vous avez tout à fait raison de dire que les distributions normales ont un support sur la vraie ligne. Et pourtant ... ce n'est pas un modèle affreux pour certaines qualités strictement positives, comme la taille ou le poids des adultes, où la moyenne et la variance sont telles que les valeurs négatives sont très peu probables sous le modèle.
Matt Krause
2
@MattKrause C'est en fait une excellente question - y a-t-il une même probabilité que je sois «10 cm au-dessus ou au-dessous de la hauteur moyenne» ou «10% au-dessus ou en dessous de la hauteur moyenne»? Seul le premier cas pourrait justifier une distribution normale.
Tomáš Kafka
1
@MattKrause: Je suis entièrement d'accord, dans un sens général. Pourtant, la question actuelle concerne la proportion du temps quotidien consacré à regarder YouTube. Nous n'avons pas de données, mais je serais extrêmement surpris si la distribution était même à distance symétrique.
Stephan Kolassa
43

Une distribution normale n'est pas très asymétrique. C'est une contradiction. Les variables normalement distribuées ont un biais = 0.

Peter Flom - Réintégrer Monica
la source
1
Quelle est la meilleure façon de décrire la distribution? Y a-t-il un mot pour ce type de distribution où il se centre autour d'un mode et a ensuite une longue queue?
Cauder
13
Unimodal et asymétrique est aussi proche que possible ...
jbowman
9
En passant, c'est vraiment incroyable que les gens donnent de leur temps pour aider les autres à s'améliorer dans ce domaine. Je sais que cela va de soi, mais c'est tellement cool ce que vous faites tous les deux!
Cauder
6
Oui, mais il convient de préciser que cette déclaration concerne la population normalement répartie. Un échantillon tiré de cette population peut être très biaisé.
gung - Rétablir Monica
Lorsque la valeur d'asymétrie est petite ("petite" étant décidée par les personnes qui traitent les statistiques en question), vous pouvez toujours traiter la population comme normale, mais avec une erreur mineure en conséquence.
Carl Witthoft
13

Il pourrait s'agir d'une distribution log-normale. Comme mentionné ici :

Le temps d'attente des utilisateurs sur les articles en ligne (blagues, actualités, etc.) suit une distribution log-normale.

La référence donnée est: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Le silence est également une preuve: interpréter le temps de séjour pour la recommandation d'un point de vue psychologique. Conférence internationale ACM sur KDD.

Comte Iblis
la source
7

"Y a-t-il un meilleur mot pour cette distribution?"

Il existe une distinction intéressante entre l'utilisation de mots pour décrire les propriétés de la distribution et la recherche d'un "nom" pour la distribution afin que vous puissiez l'identifier comme (approximativement) une instance d'une distribution standard particulière: une pour laquelle une formule ou des tableaux statistiques peuvent exister pour sa fonction de distribution, et pour lesquels vous pouvez estimer ses paramètres. Dans ce dernier cas, vous utilisez probablement la distribution nommée, par exemple "normal / gaussien" (les deux termes sont généralement synonymes), comme un modèle qui capture certaines des caractéristiques clés de vos données, plutôt que de revendiquer la population de vos données. tirés d' exactement suit cette distribution théorique. Pour citer légèrement George Box,tous les modèles sont "faux", mais certains sont utiles. Si vous pensez à l'approche de modélisation, il convient de considérer les fonctionnalités que vous souhaitez intégrer et la complexité ou la parcimonie que vous souhaitez que votre modèle soit.

Le fait d'être biaisé positivement est un exemple de description d'une propriété de la distribution, mais ne permet pas de spécifier quelle distribution standard est "le" modèle approprié. Cela exclut certains candidats, par exemple la distribution gaussienne (c'est-à-dire normale) a une asymétrie nulle, il ne sera donc pas approprié de modéliser vos données si l'inclinaison est une caractéristique importante. Il peut y avoir d'autres propriétés des données qui sont importantes pour vous aussi, par exemple qu'elles sont unimodales (a un seul pic) ou qu'elles sont limitées entre 0 et 24 heures (ou entre 0 et 1, si vous les écrivez sous forme de fraction du jour), ou qu'il existe une masse de probabilité concentrée à zéro (car il y a des gens qui ne regardent pas du tout YouTube sur un jour donné).kurtosis . Et il convient de garder à l'esprit que même si votre distribution avait une forme de "bosse" ou de "courbe en cloche" et avait un biais nul ou presque nul, il ne s'ensuit pas automatiquement que la distribution normale est "correcte" pour elle! D'un autre côté, même si la population à partir de laquelle vos données sont tirées suivait précisément une distribution particulière en raison d' une erreur d'échantillonnagevotre jeu de données peut ne pas lui ressembler. Les petits ensembles de données sont susceptibles d'être "bruyants", et il peut être difficile de savoir si certaines caractéristiques que vous pouvez voir, par exemple de petites bosses supplémentaires ou des queues asymétriques, sont des propriétés de la population sous-jacente à partir de laquelle les données ont été tirées (et devraient donc peut-être être incorporées dans votre modèle) ou s’ils ne sont que des artefacts provenant de votre échantillon particulier (et à des fins de modélisation doivent être ignorés). Si vous disposez d'un petit ensemble de données et que l'asymétrie est proche de zéro, il est même plausible que la distribution sous-jacente soit en fait symétrique. Plus votre ensemble de données est grand et plus l'asymétrie est grande, moins cela devient plausible - mais pendant que vous puissiez effectuer un test de signification pour voir à quel point les preuves fournies par vos données sur l'asymétrie dans la population à partir desquelles elles sont tirées sont convaincantes, cela peut manquer de savoir si une distribution normale (ou une autre asymétrie zéro) est appropriée comme modèle ...

Quelles propriétés des données importent vraiment aux fins que vous souhaitez modéliser? Notez que si l'inclinaison est raisonnablement petite et que vous ne vous en souciez pas beaucoup, même si la population sous-jacente est véritablement asymétrique , alors vous pourriez toujours trouver la distribution normale un modèle utile pour approximer cette vraie distribution des heures de visionnage. Mais vous devez vérifier que cela ne finit pas par faire des prédictions stupides. Parce qu'une distribution normale n'a pas de valeur la plus élevée ou la plus basse possible, bien que des valeurs extrêmement élevées ou basses deviennent de plus en plus improbables, vous constaterez toujours que votre modèle prédit qu'il y a un certainprobabilité de regarder un nombre d'heures négatif par jour, ou plus de 24 heures. Cela devient plus problématique pour vous si la probabilité prédite de tels événements impossibles devient élevée. Une distribution symétrique comme la normale prédira qu'autant de personnes surveilleront des durées plus de 50% au-dessus de la moyenne, par exemple, que moins de 50% au-dessous de la moyenne. Si les temps d'observation sont très biaisés, ce type de prédiction peut également être si invraisemblable qu'il est stupide et vous donner des résultats trompeurs si vous prenez les résultats de votre modèle et les utilisez comme entrées à d'autres fins (par exemple, vous exécute une simulation des heures de visionnage afin de calculer la planification optimale de la publicité). Si l'asymétrie est si remarquable que vous souhaitez la capturer dans le cadre de votre modèle, laune distribution normale asymétrique peut être plus appropriée. Si vous voulez capturer à la fois l'asymétrie et le kurtosis, alors considérez le t asymétrique . Si vous souhaitez incorporer les limites supérieures et inférieures physiquement possibles, envisagez d'utiliser les versions tronquées de ces distributions. Il existe de nombreuses autres distributions de probabilités qui peuvent être asymétriques et unimodales (pour les choix de paramètres appropriés) telles que les distributions F ou gamma , et encore une fois, vous pouvez les tronquer afin qu'elles ne prédisent pas des temps d'observation incroyablement élevés. Une distribution bêtapeut être un bon choix si vous modélisez la fraction de la journée passée à regarder, car elle est toujours limitée entre 0 et 1 sans qu'une troncature supplémentaire soit nécessaire. Si vous souhaitez intégrer la concentration de probabilité à exactement zéro en raison des non-observateurs, envisagez de construire dans un modèle d'obstacle .

Mais au moment où vous essayez d'intégrer toutes les fonctionnalités que vous pouvez identifier à partir de vos données et de créer un modèle toujours plus sophistiqué, vous devriez peut-être vous demander pourquoi vous faites cela? Y aurait-il un avantage à un modèle plus simple, par exemple qu'il serait plus facile de travailler avec des mathématiques ou d'avoir moins de paramètres à estimer? Si vous craignez qu'une telle simplification ne vous permette de saisir toutes les propriétés qui vous intéressent, il se peut fort bien qu'aucune distribution "standard" ne fasse exactement ce que vous voulez. Cependant, nous ne sommes pas limités à travailler avec des distributions nommées dont les propriétés mathématiques ont été élucidées précédemment. Envisagez plutôt d'utiliser vos données pour construire une fonction de distribution empirique. Cela capturera tout le comportement qui était présent dans vos données, mais vous ne pouvez plus lui donner un nom comme "normal" ou "gamma", ni appliquer des propriétés mathématiques qui ne concernent qu'une distribution particulière. Par exemple, la règle "95% des données se situe à moins de 1,96 écart-type de la moyenne" s'applique aux données normalement distribuées et peut ne pas s'appliquer à votre distribution; notez cependant que certaines règles s'appliquent à toutes les distributions, par exemple l'inégalité de Chebyshev garantit au moins75% de vos données doivent se situer dans les deux écarts-types de la moyenne, quel que soit le biais. Malheureusement, la distribution empirique héritera également de toutes les propriétés de votre ensemble de données résultant purement d'une erreur d'échantillonnage, pas seulement celles possédées par la population sous-jacente, vous pouvez donc trouver un histogramme de votre distribution empirique avec quelques bosses et creux que la population elle-même ne fait pas . Vous voudrez peut-être étudier les fonctions de distribution empirique lissées , ou mieux encore, augmenter la taille de votre échantillon.

En résumé: bien que la distribution normale ait une asymétrie nulle, le fait que vos données soient asymétriques n'exclut pas la distribution normale en tant que modèle utile, même si cela suggère qu'une autre distribution peut être plus appropriée. Vous devez tenir compte d'autres propriétés des données lors du choix de votre modèle, en plus de l'inclinaison, et tenir compte également des fins pour lesquelles vous allez utiliser le modèle. Il est sûr de dire que votre véritable population de temps de visionnage ne suit pas exactement une distribution célèbre et nommée, mais cela ne signifie pas qu'une telle distribution est vouée à être inutile comme modèle. Cependant, à certaines fins, vous préférerez peut-être simplement utiliser la distribution empirique elle-même, plutôt que d'essayer de lui ajuster une distribution standard.

Silverfish
la source
6

La distribution gamma pourrait être un bon candidat pour décrire ce type de distribution sur des données non négatives asymétriques à droite. Voir la ligne verte dans l'image ici: https://en.m.wikipedia.org/wiki/Gamma_distribution

Maurice
la source
3

01

JG
la source
2

Que diriez-vous d'un modèle obstacle?

Un modèle d'obstacle se compose de deux parties. La première est l'expérience Bernoulli qui détermine si vous utilisez YouTube. Si vous ne le faites pas, votre temps d'utilisation est évidemment nul et vous avez terminé. Si vous le faites, vous "passez cet obstacle", puis le temps d'utilisation provient d'une autre distribution strictement positive.

Un concept étroitement lié est celui des modèles à gonflement nul. Ceux-ci sont destinés à faire face à une situation où nous observons un tas de zéros, mais ne pouvons pas distinguer entre toujours des zéros et parfois des zéros. Par exemple, considérez le nombre de cigarettes qu'une personne fume chaque jour. Pour les non-fumeurs, ce nombre est toujours nul, mais certains fumeurs peuvent ne pas fumer un jour donné (sans cigarettes? Sur un long vol?). Contrairement au modèle d'obstacle, la répartition des «fumeurs» ici devrait inclure zéro, mais ces chiffres sont «gonflés» par la contribution des non-fumeurs également.

Matt Krause
la source
0

Si la distribution est en effet un «sous-ensemble» de la distribution normale, vous devriez considérer un modèle tronqué. La famille des modèles TOBIT est largement utilisée dans ce contexte.
Ils suggèrent essentiellement un pdf avec une masse de probabilité (positive) à 0 puis une «coupe d'une partie de la distribution normale» pour les valeurs positives.
Je m'abstiendrai de taper la formule ici et vous référerez plutôt à l'article Wikipedia: https://en.wikipedia.org/wiki/Tobit_model

Lucas
la source
-4

Les distributions normales sont par définition non asymétriques, vous ne pouvez donc pas avoir les deux choses. Si la distribution est asymétrique à gauche, elle ne peut pas être gaussienne. Vous devrez en choisir un autre! La chose la plus proche de votre demande à laquelle je pense est la suivante:

https://en.wikipedia.org/wiki/Skew_normal_distribution

David
la source
5
Je suis d'accord, sauf que le PO confond l'asymétrie gauche et droite, comme déjà souligné. Et @behold a déjà suggéré le skew-normal dans une réponse. Donc, je ne vois pas que cela s'ajoute aux réponses existantes.
Nick Cox
Il résume bon nombre d'entre eux dans une réponse simple en trois lignes
David
4
Désolé, mais c'est toujours la répétition.
Nick Cox
OK ... qui s'en soucie?
David
4
Eh bien, je fais; et celui qui a ajouté +1 à mes commentaires (clairement pas moi) et celui qui a downvoté votre réponse (pas moi, comme cela arrive). Ce fil est déjà long et répétitif; des commentaires encore plus redondants ne l'améliorent pas pour les futurs lecteurs.
Nick Cox