Stack Exchange, comme nous le savons tous, est une collection de sites de questions / réponses avec des sujets diversifiés. En supposant que chaque site est indépendant les uns des autres, compte tenu des statistiques d'un utilisateur, comment calculer sa "rondeur" par rapport au gars suivant? Quel est l'outil statistique à utiliser?
Pour être honnête, je ne sais pas très bien comment définir mathématiquement la "rondeur", mais elle doit avoir les caractéristiques suivantes:
- Toutes choses étant égales par ailleurs, plus un utilisateur a de représentants, plus il est équilibré
- Toutes choses étant égales par ailleurs, plus un utilisateur participe à des sites, plus il est complet.
- Que la réponse ou la question n'affecte pas la rondeur
Réponses:
Vous devez également tenir compte de la similitude entre les sites. Quelqu'un qui participe à StackOverflow et Seasoned Advice est plus bien équilibré que quelqu'un qui participe à SO et CrossValidated, qui est à son tour (je dirais) plus bien équilibré que quelqu'un qui participe à SO et à des programmeurs . Il existe sans aucun doute de nombreuses façons de le faire, mais vous pouvez vérifier les enregistrements qui se chevauchent pour en avoir une idée.
la source
EXEMPLE: disons qu'il y a trois sites, et nous voulons comparer l'arrondi des utilisateurs A, B, C. Nous écrivons la réputation des utilisateurs sur les trois sites sous forme vectorielle:
Nous considérerions A plus équilibré que B (leur réputation est répartie uniformément sur deux sites, mais A a une réputation plus globale). En outre, nous considérerions C plus bien arrondi que B (ils ont la même réputation totale, mais C a une répartition égale sur plus de sites.) Il est indécis si A doit être considéré comme plus bien arrondi que C, ou vice versa. .
Soit respectivement , , les vecteurs de réputation ci-dessus.xA xB xC
Nous voulons mesurer la «bien-arrondi» d'un utilisateur en fonction de son vecteur de réputation . Par ce qui précède, nous voudrions que notre fonction satisfasse , et .f(x) f f(xA)>f(xB) f(xC)>f(xB)
Tout qui est concave et de plus en plus fera l'affaire.f(x)
La «norme fractionnaire» est deux exemples courants de fonctions convexes
pour .0<p<1
En prenant , nous calculonsp=1/2
Selon la norme , l'utilisateur A serait considéré comme le plus complet des trois, avec une marge étroite sur l'utilisateur C.1/2
Un autre choix pour est l' entropie de Shannon (mise à l'échelle)f
où .c=∑ixi
Si nous prenons pour l'entropie de Shannon à l'échelle, alors nous calculonsf
f ( x B ) = 30 log ( 2 ) ≈ 20,8 f ( x C ) = 30 log ( 3 ) ≈ 33,0
Mesuré en fonction de l'entropie de Shannon à l'échelle, nous dirions alors que C est le plus arrondi des trois, et A le deuxième plus arrondi.
EDIT: J'ai initialement dit que la fonction devait être convexe; l'inverse est vrai.f(x)
EDIT2: Ajout d'un exemple à la lumière du commentaire de whuber.
la source
C'est une question vraiment très intéressante (en effet, je suis un peu amoureux de l'idée de modéliser les sites d'échange de pile en général).
Sur la question de l'arrondi, une façon d'évaluer cela serait à travers les balises auxquelles certains utilisateurs ont tendance à répondre, et leur distribution sur les sites. Des exemples peuvent rendre cela plus clair.
Je suis membre de TeX, StackOverflow, CrossValidated et AskUbuntu. Maintenant, je ne contribue vraiment qu'à ici et à StackOverflow, et seulement à R sur Stackoverflow. Donc, pour bien définir la rondeur, je regarderais a) la quantité de balises que deux sites ont en commun (pour définir la similitude entre les sites) et la mesure dans laquelle un utilisateur répond aux questions sur les sites qui ont peu ou pas de balises en commun.
Si, par exemple, quelqu'un contribue aux balises Python sur StackOverflow et la cuisine, cette personne est plus complète que quelqu'un qui répond aux questions des logiciels statistiques (par exemple) sur les questions de débordement et de statistiques ici.
J'espère que cela est quelque peu utile.
la source
Si vous définissez «bien-arrondi» comme «contribuant à de nombreux sites d'échange de piles», je calculerais une mesure de contribution par site. Vous pouvez utiliser le nombre total de messages, ou la moyenne des messages par jour, ou peut-être la réputation. Ensuite, examinez la distribution de cette métrique sur tous les sites et calculez son asymétrie d'une manière qui a du sens.
En d'autres termes, une personne «bien équilibrée» serait une personne qui contribue à de nombreux sites différents, tandis qu'une personne «mal arrondie» serait une personne qui contribue principalement à un site. Vous pouvez encore améliorer cela en adaptant votre métrique au total d'un utilisateur sur tous les sites. c'est-à-dire qu'une personne qui a beaucoup contribué à de nombreux sites différents devrait être considérée comme plus équilibrée qu'une personne qui n'a rien contribué à aucun des sites. Une personne qui n'a jamais utilisé SE n'est pas très bien arrondie!
la source
Déjà de nombreuses bonnes réponses, alors pourquoi une de plus? C'est principalement pour attirer l'attention sur les idées intéressantes discutées ici au The n-Category Café . Alors que la diversité en écologie (et ailleurs) ne porte principalement que sur l'abondance, il convient également de voir dans quelle mesure les différentes espèces sont similaires / différentes.
En représentant les espèces (ou autre chose, comme les sites SE ...) comme des points dans un espace métrique, cela conduit à généraliser l' entropie aux espaces métriques, voir par exemple L'entropie maximale d'un espace métrique par Tom Leinster, Emily Roff . Les mêmes idées pourraient être utilisées dans les sites SE en regardant les balises comme des points dans un espace métrique.
la source