Récemment, j'avais fait une analyse des effets de la réputation sur les votes positifs (voir le blog ), et par la suite, j'avais quelques questions sur une analyse et des graphiques éventuellement plus éclairants (ou plus appropriés).
Donc, quelques questions (et n'hésitez pas à répondre à quelqu'un en particulier et à ignorer les autres):
Dans son courant en incarnation, je ne voulais pas centrer le numéro de poste. Je pense que cela donne l'apparence fausse d'une corrélation négative dans le nuage de points, car il y a plus de messages vers l'extrémité inférieure du nombre de messages (vous voyez que cela ne se produit pas dans le panneau Jon Skeet, seulement chez les utilisateurs mortels panneau). Ne convient-il pas de ne pas centrer le numéro de poste (puisque je veux dire centré le score par score moyen par utilisateur)?
Il devrait être évident à partir des graphiques que le score est très asymétrique à droite (et le centrage moyen n'a pas changé cela). Lors de l'ajustement d'une ligne de régression, j'ai ajusté à la fois des modèles linéaires et un modèle utilisant les erreurs de sable blanc Huber (via
rlm
dans le package MASS R ) et cela n'a fait aucune différence dans les estimations de pente. Aurais-je dû envisager une transformation des données au lieu d'une régression robuste? Notez que toute transformation devrait prendre en compte la possibilité de scores 0 et négatifs. Ou aurais-je dû utiliser un autre type de modèle pour les données de comptage au lieu d'OLS?Je pense que les deux derniers graphiques, en général, pourraient être améliorés (et sont également liés à des stratégies de modélisation améliorées). À mon avis (blasé), je soupçonnerais que si les effets de réputation sont réels, ils se réaliseraient très tôt dans l'histoire des affiches (je suppose que si cela est vrai, ils peuvent être reconsidérés "vous avez donné d'excellentes réponses alors maintenant je vais voter pour tous vos affiche des effets "au lieu de" réputation par score total "). Comment puis-je créer un graphique pour démontrer si cela est vrai, tout en tenant compte du sur-tracé? J'ai pensé que peut-être un bon moyen de démontrer cela serait d'adapter un modèle de formulaire;
où est le (le même que dans les diagrammes de dispersion actuels), X 1 est le , et Z 1 ⋯ Z k sont des variables fictives représentant une plage arbitraire de numéros de poste (par exemplescore - (mean score per user)
post number
est égalsi le numéro de poste est, Z 2 est égal àsi le numéro de poste estetc.). β 0 et ϵ sont respectivement le grand terme d'interception et d'erreur. Ensuite, je voudrais juste examiner le γ estimé1
1 through 25
1
26 through 50
des pentes pour déterminer si les effets de réputation sont apparus tôt dans l'historique des affiches (ou les afficher graphiquement). Est-ce une approche raisonnable (et appropriée)?
Il semble populaire d'adapter un certain type de ligne de lissage non paramétrique à des diagrammes de dispersion comme ceux-ci (tels que le lœss ou les splines), mais mon expérimentation avec des splines n'a rien révélé d'éclairant (toute preuve d'effets positifs au début de l'histoire de l'affiche était légère et tempéramentale) au nombre de splines que j'ai incluses). Puisque j'ai l'hypothèse que les effets se produisent tôt, mon approche de modélisation est-elle plus raisonnable que les splines?
Notez également que même si j'ai à peu près dragué toutes ces données, il y a encore beaucoup d'autres communautés à examiner (et certaines comme le superutilisateur et le défaut de serveur ont des échantillons de même taille à partir desquels), il est donc tout à fait raisonnable de suggérer à l'avenir analyse que j'utilise un échantillon hold-out pour examiner toute relation.
Réponses:
C'est un essai courageux, mais avec ces seules données, il sera difficile, voire impossible, de répondre à votre question de recherche concernant «l'effet de la réputation sur les votes positifs». Le problème réside dans la séparation des effets des autres phénomènes, que j'énumère ainsi que de brèves indications sur la manière dont ils pourraient être traités.
Effets d'apprentissage . À mesure que la réputation augmente, l'expérience augmente; à mesure que l'expérience augmente, nous nous attendrions à ce qu'une personne publie de meilleures questions et réponses; à mesure que leur qualité s'améliore, nous nous attendons à plus de votes par poste. En théorie, une façon de gérer cela dans une analyse serait d'identifier les personnes actives sur plus d'un site SE . Sur un site donné, leur réputation augmenterait plus lentement que la quantité de leur expérience, fournissant ainsi une poignée pour démêler la réputation et les effets d'apprentissage.
Changements temporels dans le contexte. Ce sont une myriade, mais les plus évidents incluraient
Changements dans le nombre d'électeurs au fil du temps , y compris une tendance globale à la hausse, des tendances saisonnières (souvent associées aux cycles académiques) et des valeurs aberrantes (résultant d'une publicité externe telle que des liens vers des fils spécifiques). Toute analyse devrait en tenir compte lors de l'évaluation des tendances de la réputation d'un individu .
Changements dans les mœurs d'une communauté au fil du temps . Les communautés, et comment elles interagissent, évoluent et se développent. Au fil du temps, ils peuvent avoir tendance à voter plus ou moins souvent. Toute analyse devrait évaluer cet effet et en tenir compte .
Le temps lui-même. Au fil du temps, les publications antérieures restent disponibles pour la recherche et continuent de recueillir des votes. Ainsi, caeteris paribus , les anciens postes devraient produire plus de votes que les nouveaux. (Ceci est un fort effet: certaines personnes régulièrement élevées dans les ligues de réputation mensuelles n'ont pas visité ce site toute l'année!) Cela masquerait ou même inverserait tout effet de réputation positif réel. Toute analyse doit tenir compte de la durée de présence de chaque message sur le site .
Popularité du sujet. Certaines balises (par exemple, r ) sont beaucoup plus populaires que d'autres. Ainsi, les changements dans les types de questions auxquelles une personne répond peuvent être confondus avec des changements temporels, comme un effet de réputation. Par conséquent, toute analyse doit tenir compte de la nature des questions auxquelles on répond.
Vues [ajoutées en tant que modification]. Les questions sont vues par différents nombres de personnes pour diverses raisons (filtres, liens, etc.). Il est possible que le nombre de votes reçus par les réponses soit lié au nombre de vues, bien que l'on s'attende à une proportion décroissante à mesure que le nombre de vues augmente. (C'est une question de combien de personnes vraiment intéressées par la question la voient réellement, pas le nombre brut. Ma propre expérience - anecdotique - est qu'environ la moitié des votes positifs que je reçois sur de nombreuses questions se trouvent dans les 5-15 premiers vues, bien que finalement les questions soient vues des centaines de fois.) Par conséquent, toute analyse doit prendre en compte le nombre de vues, mais probablement pas de manière linéaire.
Difficultés de mesure. La «réputation» est la somme des votes reçus pour différentes activités: réputation initiale, réponses, questions, approbation des questions, modification des wikis de balises, vote négatif et obtention de votes négatifs (par ordre décroissant de valeur). Étant donné que ces éléments évaluent des choses différentes et ne sont pas tous sous le contrôle des électeurs de la communauté, ils doivent être séparés pour analyse . Un "effet de réputation" est vraisemblablement associé à des votes positifs sur les réponses et, peut-être, sur les questions, mais ne devrait pas affecter d'autres sources de réputation. La réputation de départ devrait certainement être soustraite (mais pourrait peut-être être utilisée comme proxy pour une certaine quantité initiale d'expérience).
Facteurs cachés. Il peut y avoir de nombreux autres facteurs de confusion impossibles à mesurer. Par exemple, il existe différentes formes de «burn-out» dans la participation aux forums. Que font les gens après quelques semaines, mois ou années d'enthousiasme? Certaines possibilités incluent la concentration sur les questions rares, inhabituelles ou difficiles; fournir des réponses uniquement aux questions sans réponse; fournir moins de réponses mais de meilleure qualité; etc. Certains d'entre eux pourraient masquer un effet de réputation, tandis que d'autres pourraient être confondus par erreur avec un. Un indicateur indirect de tels facteurs pourrait être des changements dans les taux de participation d'un individu : ils pourraient signaler des changements dans la nature des postes de cette personne.
Phénomènes sous-communautaires. Un examen attentif des statistiques, même sur des pages SE très actives, montre qu'un nombre relativement restreint de personnes font la plupart des réponses et des votes. Une clique aussi petite que deux ou trois personnes peut avoir une profonde influence sur la croissance de la réputation. Une clique de deux personnes sera détectée par les moniteurs intégrés du site (et un tel groupe existe sur ce site), mais les cliques plus grandes ne le seront probablement pas. (Je ne parle pas de collusion formelle: les gens peuvent être membres de telles cliques sans même s'en rendre compte.) Comment pourrions-nous séparer un effet de réputation apparent des activités de ces cliques informelles invisibles, non détectées? Des données de vote détaillées pourraient être utilisées à des fins de diagnostic, mais je ne pense pas que nous ayons accès à ces données.
Données limitées. Pour détecter un effet de réputation, vous devrez probablement vous concentrer sur des individus avec des dizaines à des centaines de messages (au moins). Cela fait chuter la population actuelle à moins de 50 individus. Avec toutes les possibilités de variation et de confusion, c'est beaucoup trop petit pour dégager des effets significatifs à moins qu'ils ne soient vraiment très forts. Le remède consiste à augmenter l'ensemble de données avec des enregistrements provenant d'autres sites SE .
Compte tenu de toutes ces complications, il devrait être clair que les graphiques exploratoires de l'article de blog ont peu de chances de révéler quoi que ce soit, à moins que cela ne soit évident. Rien ne nous saute aux yeux: comme prévu, les données sont en désordre et compliquées. Il est prématuré de recommander des améliorations aux graphiques ou à l'analyse qui a été présentée: des changements progressifs et une analyse supplémentaire ne seront d'aucune utilité tant que ces problèmes fondamentaux n'auront pas été résolus .
la source
Sur le point 1: si vous faisiez des effets fixes à la main, vous auriez dû centrer à la fois la variable de réponse et les variables explicatives. Le package de régression des données du panel l'aurait fait pour vous, mais la façon économétrique officielle de voir les choses est de soustraire la régression "entre" de la régression "groupée" (voir le livre noir de Wooldridge ; je n'ai pas vérifié la deuxième édition, mais je considère généralement la première édition comme la meilleure description de type manuel des données du panel économétrique).
Sur votre point 2: bien sûr, les erreurs standard Eicker / White n'affecteront pas vos estimations de points; s'ils le faisaient, cela indiquerait une implémentation incorrecte! Dans le contexte des séries chronologiques, un estimateur encore plus approprié est dû à Newey et West (1987) . Essayer des transformations pourrait aider. Je suis personnellement un grand fan de la transformation Box-Cox, mais dans le contexte de l'analyse que vous entreprenez, il est difficile de le faire proprement. Tout d'abord, vous auriez besoin d'un paramètre de décalage au-dessus du paramètre de forme, et les paramètres de décalage sont notoirement difficiles à identifier dans des modèles comme celui-ci. Deuxièmement, vous auriez probablement besoin de différents paramètres de changement / forme pour différentes personnes et / ou différents messages, et / ou ... (tout l'enfer se déchaînant). Les données de comptage sont également une option, mais dans le contexte de la modélisation moyenne, une régression de Poisson est tout aussi bonne que la transformation logarithmique, mais elle impose une hypothèse difficile à manier de variance = moyenne.
PS Vous pourriez probablement marquer cela avec des "données longitudinales" et des "séries chronologiques".
la source
Plusieurs autres modifications apportées aux parcelles:
Modéliser cela sera plus difficile. Vous pourriez envisager la régression de Poisson. Franchement, cependant, développer de bonnes parcelles est une bien meilleure méthode pour développer des connaissances et des compétences. Commencez la modélisation après avoir mieux compris les données.
la source
coplot()
.Whoa there. (Et je veux dire que dans le bon sens ;-)) Avant d'aller plus loin avec les modèles, vous devez aborder ce qui se passe avec les données.
Je ne vois pas d'explication pour la courbe très particulière au milieu de cette intrigue: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png
Voir une telle courbe me fait penser qu'il y a quelque chose de très étrange à propos de ces points - qu'ils ne sont pas indépendants les uns des autres et reflètent plutôt une séquence d'observations de la même source.
(Note mineure: le titre de ce complot "Corrélation ..." est trompeur.)
la source
Rep(t) - Rep(t-1)
car les utilisateurs peuvent gagner la réputation d'autres endroits), l'axe X est la réputation actuelle (y compris la réputation acquise à partir de ce message). L'axe X est ce que j'ai suggéré de remplacer (en soustrayant les votes positifs obtenus à partir de la réponse à la question que j'ai tracée sur l'axe Y).