J'essaie de mettre en place un package d'exploration de données pour les sites StackExchange et en particulier, je suis coincé en essayant de déterminer les questions "les plus intéressantes". Je voudrais utiliser le score de la question, mais supprimer le biais dû au nombre de vues, mais je ne sais pas comment aborder cela avec rigueur.
Dans le monde idéal, je pourrais trier les questions en calculant , où est le total des votes et est le nombre de vues. Après tout, cela mesurerait le pourcentage de personnes qui votent positivement, moins le pourcentage de personnes qui votent contre la question. vn
Malheureusement, le schéma de vote est beaucoup plus compliqué. Les votes ont tendance à "plafonner" à un certain niveau, ce qui a pour effet de sous-estimer considérablement les questions extrêmement populaires. Dans la pratique, une question avec 1 point de vue et 1 vote positif marquerait certainement et serait triée plus haut que toute autre question avec 10 000 vues, mais moins de 10 000 votes.
J'utilise actuellement comme formule empirique, mais je voudrais être précis. Comment aborder ce problème avec rigueur mathématique?
Afin de répondre à certains des commentaires, je vais essayer de reformuler le problème d'une meilleure manière:
Disons que j'ai une question avec votes au total et vues. Je voudrais pouvoir estimer le nombre total de votes plus probable lorsque les vues atteignent .n 0 v 1 n 1
De cette façon, je pouvais simplement choisir une valeur nominale pour et commander toutes les questions en fonction du total attendu .v 1
J'ai créé deux requêtes sur le datadump SO pour mieux montrer l'effet dont je parle:
Résultat:
Score moyen par vues (seaux de 100 vues)
Résultat:
Résultats, je ne sais pas si plus droit est meilleur: ( en bleu, en rouge) v
la source
Réponses:
On pourrait définir une question intéressante comme une question qui a recueilli un nombre de votes relativement élevé compte tenu du nombre de vues. À cette fin, vous pouvez créer une courbe de référence qui reflète le nombre attendu de votes compte tenu des vues. Les courbes qui ont attiré beaucoup plus de votes que la ligne de base ont été jugées particulièrement intéressantes.
Pour construire la ligne de base, vous souhaiterez peut-être calculer le nombre médian de votes par tranche de 100 vues. De plus, vous pouvez calculer l'écart médian absolu (MAD) comme une mesure robuste de l'écart type par casier. Ensuite, "l'intérêt" peut être calculé comme
la source
Telle est ma théorie. Je pense qu'il y a deux types de questions: celles qui restent principalement au sein de SE (qui ont généralement moins de vues), et celles qui sont vues par des étrangers car elles étaient liées ailleurs (ont généralement plus de vues).
Pour les questions qui restent principalement au sein de SE, les votes sont une bonne mesure des questions intéressantes. C'est le point des votes.
Lorsqu'une question est liée à l'extérieur du site, les votes cessent de signifier autant. Certains sites de liaison peuvent avoir très peu de membres SE, d'autres peuvent en avoir plus. La variance du nombre de votes pour ces questions est probablement élevée (comme en témoigne votre score vs graphique de vue, où le côté droit de la courbe s'épanouit). Ces questions auront plus de vues, et les vues PEUVENT être un meilleur indicateur de questions intéressantes. Ou des questions qu'une communauté plus large s'est avérée plus intéressante. Il existe de nombreuses variables dans cette situation, et je pense qu'il vaudrait la peine d'essayer de trouver plus d'informations pour différencier ces cas. SE publie-t-il les informations de référence?
la source