J'ai cette question: à votre avis, à quoi ressemble la répartition du temps passé par jour sur YouTube?
Ma réponse est qu'elle est probablement distribuée normalement et très biaisée à gauche. Je m'attends à ce qu'il y ait un mode où la plupart des utilisateurs passent environ un certain temps moyen, puis une longue queue droite, car certains utilisateurs sont des utilisateurs puissants.
Est-ce une réponse juste? Y a-t-il un meilleur mot pour cette distribution?
Réponses:
Une fraction par jour n'est certainement pas négative. Cela exclut la distribution normale, qui a une masse de probabilité sur tout l'axe réel - en particulier sur la moitié négative.
Distribution des lois de puissance sont souvent utilisées pour modéliser des choses comme la distribution des revenus, la taille des villes, etc. Elles sont non négatives et généralement très asymétriques. Ce serait la première fois que j'essaierais de modéliser le temps passé à regarder YouTube. (Ou suivi des questions CrossValidated.)
Plus d'informations sur les lois de puissance peuvent être trouvées ici ou ici , ou dans notre étiquette de loi de puissance .
la source
Une distribution normale n'est pas très asymétrique. C'est une contradiction. Les variables normalement distribuées ont un biais = 0.
la source
S'il a une longue queue droite, il est de travers.
Ce ne peut pas être une distribution normale car skew! = 0, c'est peut-être une distribution normale unimodale de skew:
https://en.wikipedia.org/wiki/Skew_normal_distribution
la source
Il pourrait s'agir d'une distribution log-normale. Comme mentionné ici :
La référence donnée est: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Le silence est également une preuve: interpréter le temps de séjour pour la recommandation d'un point de vue psychologique. Conférence internationale ACM sur KDD.
la source
"Y a-t-il un meilleur mot pour cette distribution?"
Il existe une distinction intéressante entre l'utilisation de mots pour décrire les propriétés de la distribution et la recherche d'un "nom" pour la distribution afin que vous puissiez l'identifier comme (approximativement) une instance d'une distribution standard particulière: une pour laquelle une formule ou des tableaux statistiques peuvent exister pour sa fonction de distribution, et pour lesquels vous pouvez estimer ses paramètres. Dans ce dernier cas, vous utilisez probablement la distribution nommée, par exemple "normal / gaussien" (les deux termes sont généralement synonymes), comme un modèle qui capture certaines des caractéristiques clés de vos données, plutôt que de revendiquer la population de vos données. tirés d' exactement suit cette distribution théorique. Pour citer légèrement George Box,tous les modèles sont "faux", mais certains sont utiles. Si vous pensez à l'approche de modélisation, il convient de considérer les fonctionnalités que vous souhaitez intégrer et la complexité ou la parcimonie que vous souhaitez que votre modèle soit.
Le fait d'être biaisé positivement est un exemple de description d'une propriété de la distribution, mais ne permet pas de spécifier quelle distribution standard est "le" modèle approprié. Cela exclut certains candidats, par exemple la distribution gaussienne (c'est-à-dire normale) a une asymétrie nulle, il ne sera donc pas approprié de modéliser vos données si l'inclinaison est une caractéristique importante. Il peut y avoir d'autres propriétés des données qui sont importantes pour vous aussi, par exemple qu'elles sont unimodales (a un seul pic) ou qu'elles sont limitées entre 0 et 24 heures (ou entre 0 et 1, si vous les écrivez sous forme de fraction du jour), ou qu'il existe une masse de probabilité concentrée à zéro (car il y a des gens qui ne regardent pas du tout YouTube sur un jour donné).kurtosis . Et il convient de garder à l'esprit que même si votre distribution avait une forme de "bosse" ou de "courbe en cloche" et avait un biais nul ou presque nul, il ne s'ensuit pas automatiquement que la distribution normale est "correcte" pour elle! D'un autre côté, même si la population à partir de laquelle vos données sont tirées suivait précisément une distribution particulière en raison d' une erreur d'échantillonnagevotre jeu de données peut ne pas lui ressembler. Les petits ensembles de données sont susceptibles d'être "bruyants", et il peut être difficile de savoir si certaines caractéristiques que vous pouvez voir, par exemple de petites bosses supplémentaires ou des queues asymétriques, sont des propriétés de la population sous-jacente à partir de laquelle les données ont été tirées (et devraient donc peut-être être incorporées dans votre modèle) ou s’ils ne sont que des artefacts provenant de votre échantillon particulier (et à des fins de modélisation doivent être ignorés). Si vous disposez d'un petit ensemble de données et que l'asymétrie est proche de zéro, il est même plausible que la distribution sous-jacente soit en fait symétrique. Plus votre ensemble de données est grand et plus l'asymétrie est grande, moins cela devient plausible - mais pendant que vous puissiez effectuer un test de signification pour voir à quel point les preuves fournies par vos données sur l'asymétrie dans la population à partir desquelles elles sont tirées sont convaincantes, cela peut manquer de savoir si une distribution normale (ou une autre asymétrie zéro) est appropriée comme modèle ...
Quelles propriétés des données importent vraiment aux fins que vous souhaitez modéliser? Notez que si l'inclinaison est raisonnablement petite et que vous ne vous en souciez pas beaucoup, même si la population sous-jacente est véritablement asymétrique , alors vous pourriez toujours trouver la distribution normale un modèle utile pour approximer cette vraie distribution des heures de visionnage. Mais vous devez vérifier que cela ne finit pas par faire des prédictions stupides. Parce qu'une distribution normale n'a pas de valeur la plus élevée ou la plus basse possible, bien que des valeurs extrêmement élevées ou basses deviennent de plus en plus improbables, vous constaterez toujours que votre modèle prédit qu'il y a un certainprobabilité de regarder un nombre d'heures négatif par jour, ou plus de 24 heures. Cela devient plus problématique pour vous si la probabilité prédite de tels événements impossibles devient élevée. Une distribution symétrique comme la normale prédira qu'autant de personnes surveilleront des durées plus de 50% au-dessus de la moyenne, par exemple, que moins de 50% au-dessous de la moyenne. Si les temps d'observation sont très biaisés, ce type de prédiction peut également être si invraisemblable qu'il est stupide et vous donner des résultats trompeurs si vous prenez les résultats de votre modèle et les utilisez comme entrées à d'autres fins (par exemple, vous exécute une simulation des heures de visionnage afin de calculer la planification optimale de la publicité). Si l'asymétrie est si remarquable que vous souhaitez la capturer dans le cadre de votre modèle, laune distribution normale asymétrique peut être plus appropriée. Si vous voulez capturer à la fois l'asymétrie et le kurtosis, alors considérez le t asymétrique . Si vous souhaitez incorporer les limites supérieures et inférieures physiquement possibles, envisagez d'utiliser les versions tronquées de ces distributions. Il existe de nombreuses autres distributions de probabilités qui peuvent être asymétriques et unimodales (pour les choix de paramètres appropriés) telles que les distributions F ou gamma , et encore une fois, vous pouvez les tronquer afin qu'elles ne prédisent pas des temps d'observation incroyablement élevés. Une distribution bêtapeut être un bon choix si vous modélisez la fraction de la journée passée à regarder, car elle est toujours limitée entre 0 et 1 sans qu'une troncature supplémentaire soit nécessaire. Si vous souhaitez intégrer la concentration de probabilité à exactement zéro en raison des non-observateurs, envisagez de construire dans un modèle d'obstacle .
Mais au moment où vous essayez d'intégrer toutes les fonctionnalités que vous pouvez identifier à partir de vos données et de créer un modèle toujours plus sophistiqué, vous devriez peut-être vous demander pourquoi vous faites cela? Y aurait-il un avantage à un modèle plus simple, par exemple qu'il serait plus facile de travailler avec des mathématiques ou d'avoir moins de paramètres à estimer? Si vous craignez qu'une telle simplification ne vous permette de saisir toutes les propriétés qui vous intéressent, il se peut fort bien qu'aucune distribution "standard" ne fasse exactement ce que vous voulez. Cependant, nous ne sommes pas limités à travailler avec des distributions nommées dont les propriétés mathématiques ont été élucidées précédemment. Envisagez plutôt d'utiliser vos données pour construire une fonction de distribution empirique. Cela capturera tout le comportement qui était présent dans vos données, mais vous ne pouvez plus lui donner un nom comme "normal" ou "gamma", ni appliquer des propriétés mathématiques qui ne concernent qu'une distribution particulière. Par exemple, la règle "95% des données se situe à moins de 1,96 écart-type de la moyenne" s'applique aux données normalement distribuées et peut ne pas s'appliquer à votre distribution; notez cependant que certaines règles s'appliquent à toutes les distributions, par exemple l'inégalité de Chebyshev garantit au moins75% de vos données doivent se situer dans les deux écarts-types de la moyenne, quel que soit le biais. Malheureusement, la distribution empirique héritera également de toutes les propriétés de votre ensemble de données résultant purement d'une erreur d'échantillonnage, pas seulement celles possédées par la population sous-jacente, vous pouvez donc trouver un histogramme de votre distribution empirique avec quelques bosses et creux que la population elle-même ne fait pas . Vous voudrez peut-être étudier les fonctions de distribution empirique lissées , ou mieux encore, augmenter la taille de votre échantillon.
En résumé: bien que la distribution normale ait une asymétrie nulle, le fait que vos données soient asymétriques n'exclut pas la distribution normale en tant que modèle utile, même si cela suggère qu'une autre distribution peut être plus appropriée. Vous devez tenir compte d'autres propriétés des données lors du choix de votre modèle, en plus de l'inclinaison, et tenir compte également des fins pour lesquelles vous allez utiliser le modèle. Il est sûr de dire que votre véritable population de temps de visionnage ne suit pas exactement une distribution célèbre et nommée, mais cela ne signifie pas qu'une telle distribution est vouée à être inutile comme modèle. Cependant, à certaines fins, vous préférerez peut-être simplement utiliser la distribution empirique elle-même, plutôt que d'essayer de lui ajuster une distribution standard.
la source
La distribution gamma pourrait être un bon candidat pour décrire ce type de distribution sur des données non négatives asymétriques à droite. Voir la ligne verte dans l'image ici: https://en.m.wikipedia.org/wiki/Gamma_distribution
la source
la source
la source
Que diriez-vous d'un modèle obstacle?
Un modèle d'obstacle se compose de deux parties. La première est l'expérience Bernoulli qui détermine si vous utilisez YouTube. Si vous ne le faites pas, votre temps d'utilisation est évidemment nul et vous avez terminé. Si vous le faites, vous "passez cet obstacle", puis le temps d'utilisation provient d'une autre distribution strictement positive.
Un concept étroitement lié est celui des modèles à gonflement nul. Ceux-ci sont destinés à faire face à une situation où nous observons un tas de zéros, mais ne pouvons pas distinguer entre toujours des zéros et parfois des zéros. Par exemple, considérez le nombre de cigarettes qu'une personne fume chaque jour. Pour les non-fumeurs, ce nombre est toujours nul, mais certains fumeurs peuvent ne pas fumer un jour donné (sans cigarettes? Sur un long vol?). Contrairement au modèle d'obstacle, la répartition des «fumeurs» ici devrait inclure zéro, mais ces chiffres sont «gonflés» par la contribution des non-fumeurs également.
la source
Si la distribution est en effet un «sous-ensemble» de la distribution normale, vous devriez considérer un modèle tronqué. La famille des modèles TOBIT est largement utilisée dans ce contexte.
Ils suggèrent essentiellement un pdf avec une masse de probabilité (positive) à 0 puis une «coupe d'une partie de la distribution normale» pour les valeurs positives.
Je m'abstiendrai de taper la formule ici et vous référerez plutôt à l'article Wikipedia: https://en.wikipedia.org/wiki/Tobit_model
la source
Les distributions normales sont par définition non asymétriques, vous ne pouvez donc pas avoir les deux choses. Si la distribution est asymétrique à gauche, elle ne peut pas être gaussienne. Vous devrez en choisir un autre! La chose la plus proche de votre demande à laquelle je pense est la suivante:
https://en.wikipedia.org/wiki/Skew_normal_distribution
la source