Fonction «Intérêt» pour les questions StackExchange

J'essaie de mettre en place un package d'exploration de données pour les sites StackExchange et en particulier, je suis coincé en essayant de déterminer les questions "les plus intéressantes". Je voudrais utiliser le score de la question, mais supprimer le biais dû au nombre de vues, mais je ne sais pas comment aborder cela avec rigueur.

Dans le monde idéal, je pourrais trier les questions en calculant , où est le total des votes et est le nombre de vues. Après tout, cela mesurerait le pourcentage de personnes qui votent positivement, moins le pourcentage de personnes qui votent contre la question. $\frac{v}{n}$ $v$ $n$

Malheureusement, le schéma de vote est beaucoup plus compliqué. Les votes ont tendance à "plafonner" à un certain niveau, ce qui a pour effet de sous-estimer considérablement les questions extrêmement populaires. Dans la pratique, une question avec 1 point de vue et 1 vote positif marquerait certainement et serait triée plus haut que toute autre question avec 10 000 vues, mais moins de 10 000 votes.

J'utilise actuellement comme formule empirique, mais je voudrais être précis. Comment aborder ce problème avec rigueur mathématique? $\frac{v}{\log{n}+1}$

Afin de répondre à certains des commentaires, je vais essayer de reformuler le problème d'une meilleure manière:

Disons que j'ai une question avec votes au total et vues. Je voudrais pouvoir estimer le nombre total de votes plus probable lorsque les vues atteignent . $v_0$ $n_0$ $v_1$ $n_1$

De cette façon, je pouvais simplement choisir une valeur nominale pour et commander toutes les questions en fonction du total attendu . $n_1$ $v_1$

J'ai créé deux requêtes sur le datadump SO pour mieux montrer l'effet dont je parle:

Vues moyennes par score

Résultat:

Vues par score

Score moyen par vues (seaux de 100 vues)

Résultat:

Score par vues

Les deux formules comparées

Résultats, je ne sais pas si plus droit est meilleur: ( en bleu, en rouge) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Formules

data-mining predictive-models Sklivvz
la source

C'est certainement une question intéressante, mais je pense que vous feriez mieux de poser cette question sur stats.SE.

@Theo Vous avez peut-être raison, en fait. Je signalerai que les mods migreront s'ils pensent que c'est mieux.

Pourquoi les opinions ne contribueraient-elles pas à l'intérêt? (mais pire, pourquoi contribueraient-ils négativement?) Des choses plus intéressantes ont tendance à être vues plus souvent ... Le problème fondamental ici est ce que signifie même intéressant ? S'agit-il de questions d' intérêt général ou de questions qui intéressent un public plus spécifique de niveau supérieur? Pour que quelqu'un réponde à cette question avec "rigueur mathématique", il faut d'abord la poser avec rigueur.

Les vues biaisent les questions car une question peut, par exemple, être liée par un bon site et recevoir des tonnes de vues - si vous regardez les questions les mieux notées, ce sont toutes des questions de haute vue; par intéressant, je veux dire les questions qui ont plus de valeur telles que perçues par les utilisateurs du site. Dans tous les cas, la question demeure: quelle est la bonne façon de combiner les vues et les votes pour obtenir le meilleur prédicteur de qualité?

Les maths ont posé de bonnes questions. La logique de cette question semble circulaire: elle semble nous demander une formule pour mesurer la «qualité» d'une question SE mais elle ne précise pas ce que signifie «qualité» sauf pour donner des synonymes non opérationnels comme «la valeur perçue par les utilisateurs» du site. " Vous ne pouvez pas obtenir quelque chose pour rien!

whuber

Réponses:

On pourrait définir une question intéressante comme une question qui a recueilli un nombre de votes relativement élevé compte tenu du nombre de vues. À cette fin, vous pouvez créer une courbe de référence qui reflète le nombre attendu de votes compte tenu des vues. Les courbes qui ont attiré beaucoup plus de votes que la ligne de base ont été jugées particulièrement intéressantes.

Pour construire la ligne de base, vous souhaiterez peut-être calculer le nombre médian de votes par tranche de 100 vues. De plus, vous pouvez calculer l'écart médian absolu (MAD) comme une mesure robuste de l'écart type par casier. Ensuite, "l'intérêt" peut être calculé comme

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

Jonas
la source

Telle est ma théorie. Je pense qu'il y a deux types de questions: celles qui restent principalement au sein de SE (qui ont généralement moins de vues), et celles qui sont vues par des étrangers car elles étaient liées ailleurs (ont généralement plus de vues).

Pour les questions qui restent principalement au sein de SE, les votes sont une bonne mesure des questions intéressantes. C'est le point des votes.

Lorsqu'une question est liée à l'extérieur du site, les votes cessent de signifier autant. Certains sites de liaison peuvent avoir très peu de membres SE, d'autres peuvent en avoir plus. La variance du nombre de votes pour ces questions est probablement élevée (comme en témoigne votre score vs graphique de vue, où le côté droit de la courbe s'épanouit). Ces questions auront plus de vues, et les vues PEUVENT être un meilleur indicateur de questions intéressantes. Ou des questions qu'une communauté plus large s'est avérée plus intéressante. Il existe de nombreuses variables dans cette situation, et je pense qu'il vaudrait la peine d'essayer de trouver plus d'informations pour différencier ces cas. SE publie-t-il les informations de référence?

rm999
la source

SE publie-t-il les informations de référence? Je serais intéressé de connaître le modèle d'affichage des messages plutôt que simplement des votes positifs, des commentaires, etc.

d_a_c321