Avons-nous un problème de «pitié upvotes»?

Je sais, cela peut sembler hors sujet, mais écoutez-moi.

Au débordement de pile et ici nous obtenons des votes sur les articles, tout cela est stocké dans un tableau.

Par exemple:

post id id électeur type de vote date / heure
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01

... etc. Le type de vote 2 est un vote positif, le type de vote 3 est un vote négatif. Vous pouvez interroger une version anonymisée de ces données à l' adresse http://data.stackexchange.com.

Il y a une perception que si un message atteint le score de -1 ou moins, il est plus susceptible d'être voté. Cela peut être simplement un biais de confirmation ou il peut être enraciné dans les faits.

Comment analyserions-nous ces données pour confirmer ou infirmer cette hypothèse? Comment pourrions-nous mesurer l'effet de ce biais?

time-series hypothesis-testing data-mining markov-process censoring Sam Safran
la source

pouvons-nous obtenir un exemple de la requête? Tout le monde n'est pas habitué à écrire des instructions SQL. Avoir des exemples de données pourrait encourager les gens à essayer de jouer avec. +1 pour la question.

Mpiktas

Les votes de @Jeff sont anonymisés. Vous ne pouvez obtenir que des informations partielles sur le dump de données. Toutes les transitions sont incluses, mais voici un exemple rapide. Data.stackexchange.com/stackoverflow/q/101738 des données intégralement anonymisées sont disponibles dans le dump de données public

Sam Safran

Pourquoi juste des votes positifs? Comment la probabilité d'un vote à la hausse ou à la baisse autour de chaque valeur serait certainement intéressante?

Bob Durrant le

@Bob, d'accord, ils seraient d'accord

Sam Saffron

J'ai vu d'autres types de sites obscurcir les votes (par exemple, ajouter du bruit avant de les afficher) et parfois même masquer complètement les votes montant et descendant pendant une courte période, afin d'éviter diverses formes de bandwagonning, de vote par pitié et autres "sociales". éléments de vote.

Glen_b

Réponses:

Vous pouvez utiliser un modèle multi-états ou une chaîne de Markov (le package msm dans R est un moyen de les adapter). Vous pouvez ensuite voir si la probabilité de transition de -1 à 0 est supérieure à 0 à 1, de 1 à 2, etc. Vous pouvez également regarder le temps moyen à -1 par rapport aux autres pour voir s'il est plus court. .

Greg Snow
la source

+1 excellente référence. Il existe un article dans Journal of Statistical Software sur le package msm. Le modèle semble parfaitement adapté à ce type de tâche.

Mpiktas

L'idée de modèle de chaîne de Markov semble bonne, mais le temps moyen à -1 ne donnera pas toute l'histoire. Il est possible (et plausible - penser à de mauvaises questions) qu'il est plus probable que l'on obtienne un vote négatif à -1 qu'ailleurs.

Bob Durrant le

Je suppose que ce que l’on voudra peut-être faire en premier lieu est de regrouper les trajectoires de vote - celles qui n’obtiennent (presque) que des votes à la hausse / la baisse (très populaires / de très mauvaises questions) et celles qui sont plus controversées. Ensuite, vous pouvez faire des chaînes de Markov sur les trois classes.

Jonas

Mener une expérience. Voter aléatoirement la moitié des nouveaux postes à une heure donnée chaque jour.

charles.y.zheng
la source

Cool, nous devrions observer une augmentation significative du nombre de badges "critiques" et probablement une diminution de la motivation des nouveaux utilisateurs :-) Mieux vaut commencer par des utilisateurs très représentatifs, dans ce cas (risque de biaiser l'expérience!)

chl

En fait, nous pourrions faire mieux que cela ... en utilisant les tests AB, nous pourrions choisir d'afficher la moitié de la question -1 votée sur le site en tant que 0 et l'autre moitié en tant que -1 ... et voir si l'un des groupes risque davantage de l'être. upvoted! Ingénieux.

Sam Saffron

L’idée de l’expérience contrôle la qualité des postes, mais (1) ceux qui sont rétrogradés doivent accepter au préalable de participer à l’expérience et (2) après un bref délai, les déclassements doivent être supprimés.

Zicyclette

+1 (et +1 à tous les commentaires ici aussi): une expérience réversible contrôlée , communiquée à l'avance à tous les utilisateurs susceptibles d'être affectés et menée avec leur approbation, est l'un des moyens les plus efficaces pour obtenir ces informations.

whuber

Résumé de ma réponse. J'aime la modélisation de la chaîne de Markov, mais elle manque l'aspect "temporel". À l’autre extrémité, la focalisation sur l’aspect temporel (par exemple le temps moyen à ) passe à côté de l’aspect "transition". J'irais dans la modélisation générale suivante (qui avec l'hypothèse appropriée peut conduire à [processus de markov] [1]). De plus, il y a beaucoup de statistiques "censurées" derrière ce problème (qui est certainement un problème classique de la fiabilité des logiciels?). La dernière équation de ma réponse donne l’estimateur du maximum de vraisemblance de l’intensité du vote (+ + et au lieu de "-") pour un état de vote donné. Comme on peut le voir à partir de l'équation, c'est un intermédiaire du cas où vous estimez seulement la probabilité de transition et du cas où vous ne mesurez que le temps passé dans un état donné. J'espère que cette aide. $-1$

Modélisation générale (pour reformuler la question et les hypothèses). Soit et des variables aléatoires modélisant respectivement les dates de vote et le signe de vote associé (+1 pour vote positif, -1 pour vote négatif). Le processus de vote est simplement $(VD_i)_{i\geq 1}$ $(S_{i})_{i\geq 1}$

Y_{t} = Y_{t}^{+} - Y_{t}^{-}

$Y_{t}=Y^+_t-Y^-_t$ où

Y_{t}^{+} = \sum_{i = 0}^{\infty} 1_{V D_{i} \leq t, S_{i} = 1} and Y_{t}^{-} = \sum_{i = 0}^{\infty} 1_{V D_{i} \leq t, S_{i} = - 1}

$Y^+_t=\sum_{i=0}^{\infty}1_{VD_i\leq t,S_i=1} \;\text{ and } \;Y^-_t=\sum_{i=0}^{\infty}1_{VD_i\leq t,S_i=-1}$

La quantité importante ici est l’intention de -jump où peut être ou et est un bon filtrage, dans le cas des genres, sans autre connaissance, ce serait : . $\epsilon$

λ_{t}^{ϵ} = lim_{d t \to 0} \frac{1}{d t} P (Y_{t + d t}^{ϵ} - Y_{t}^{ϵ} = 1 | F_{t})

$\lambda^{\epsilon}_t=\lim_{dt\rightarrow 0} \frac{1}{dt} P(Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1|\mathcal{F}_t)$

ϵ

$\epsilon$

-

$-$

+

$+$

F_{t}

$\mathcal{F}_t$

F_{t} = σ (Y_{t}^{+}, Y_{t}^{-}, V D_{1}, \dots, V D_{Y_{t}^{+} + Y_{t}^{-}}, S_{1}, \dots, S_{Y_{t}^{+} + Y_{t}^{-}})

$\mathcal{F}_t=\sigma \left (Y^+_t,Y^-_t,VD_1,\dots,VD_{Y^+_t+Y^-_t},S_{1},\dots,S_{Y^+_t+Y^-_t} \right )$

mais dans le sens de votre question, je pense que vous supposez implicitement que Cela signifie que pour il existe une séquence déterministe tel que .

P (Y_{t + d t}^{ϵ} - Y_{t}^{ϵ} = 1 | F_{t}) = P (Y_{t + d t}^{ϵ} - Y_{t}^{ϵ} = 1 | Y_{t})

$P \left ( Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1 | \mathcal{F}_t \right )= P \left (Y^{\epsilon}_{t+dt}-Y^{\epsilon}_t=1| Y_t \right )$

ϵ = +, -

$\epsilon=+,-$

(μ_{i}^{ϵ})_{i \in Z}

$(\mu^{\epsilon}_i)_{i\in \mathbb{Z}}$

λ_{t}^{ϵ} = μ_{Y_{t}}^{ϵ}

$\lambda^{\epsilon}_t=\mu^{\epsilon}_{Y_t}$

Dans ce formalisme, votre question peut être reformulée de la manière suivante: "il est probable que " (ou du moins la différence est-elle supérieure à seuil donné). $\mu^{+}_{-1} -\mu^{+}_{0}>0$

Sous cette hypothèse, il est facile de montrer que est un [processus de markov homogène] [3] sur avec le générateur donné par $Y_t$ $\mathbb{Z}$ $Q$

\forall i, j \in Z Q_{i, i + 1} = μ_{i}^{+} Q_{i, i - 1} = μ_{i}^{-} Q_{i i} = 1 - (μ_{i}^{+} + μ_{i}^{-}) Q_{i j} = 0 if | i - j | > 1

$\forall i,j \in \mathbb{Z}\;\;\; Q_{i,i+1}=\mu^{+}_{i}\;\; Q_{i,i-1}=\mu^{-}_{i}\;\; Q_{ii}=1-(\mu^{+}_{i}+\mu^{-}_{i}) \;\; Q_{ij}=0 \text{ if } |i-j|>1$

Répondre à la question (en proposant un estimat de maximum de vraisemblance pour le problème statistique) À partir de cette reformulation, le problème est résolu en estimant et en construisant un test à partir de ses valeurs. Fixons et oublions l' indice sans perte de généralité. L’estimation de (et ) peut être faite grâce à l’observation de $(\mu^{+}_i)$ $i$ $\mu^+$ $\mu^-$

$(T^{1},\eta^1),\dots,(T^{p},\eta^p)$ où sont les longueurs des des périodes passées dans l'état (ie fois successifs avec ) et est si la question a été votée, si elle a été votée et si elle était le dernier état d'observation. $T^j$ $j^{th}$ $p$ $i$ $Y_t=i$ $\eta^j$ $+1$ $-1$ $0$

Si vous oubliez le cas du dernier état d'observation, les couples mentionnés proviennent d'une distribution dépendant de et de : elle est distribuée sous la forme (où Exp est un var aléatoire d'une distribution exponentielle et est + ou -1 en fonction de celui qui réalise le max). Ensuite, vous pouvez utiliser le lemme simple suivant (la preuve est simple): $\mu_i^+$ $\mu_i^-$ $(\min(Exp(\mu_i^+),Exp(\mu_i^-)),\eta)$ $\eta$

Lemme Si et alors et . $X_+\leadsto Exp(\mu_+)$ $X_{-} \leadsto Exp(\mu_{-})$ $T=\min(X_+,X_-)\leadsto Exp(\mu_++\mu_-)$ $P(X_+1<X_-)=\frac{\mu_+}{\mu_++\mu_-}$

Cela implique que la densité de est donnée par: où pour est la fonction de densité d'une variable aléatoire exponentielle avec le paramètre . Il est facile de déduire de cette expression l'estimateur du maximum de vraisemblance de et : $f(t,\epsilon)$ $(T,\eta)$

f (t, ϵ) = g_{μ_{+} + μ_{-}} (\frac{1 (ϵ = + 1) * μ_{+} + 1 (ϵ = - 1) * μ_{-}}{μ_{+} + μ_{-}})

$f(t,\epsilon)=g_{\mu_++\mu_-}\left ( \frac{1(\epsilon=+1)*\mu_++1(\epsilon=-1)*\mu_-}{\mu_++\mu_-}\right )$

g_{a}

$g_a$

a > 0

$a>0$

a

$a$

μ_{+}

$\mu_+$

μ_{-}

$\mu_-$

({\hat{μ}}_{+}, {\hat{μ}}_{-}) = a r g m i n \ln (μ_{-} + μ_{+}) ((μ_{-} + μ_{+}) \sum_{i = 1}^{p} T^{i} + p) - p_{-} \ln (μ_{-}) - p_{+} \ln (μ_{+})

$(\hat{\mu}_+,\hat{\mu}_-)=argmin \ln (\mu_-+\mu_+)\left ( (\mu_-+\mu_+)\sum_{i=1}^p T^i+p\right )- p_-\ln\left (\mu_-\right ) -p_+ \ln \left (\mu_+\right )$ oùet.

p_{-} = | i : δ_{i} = - 1 |

$p_-=|{i:\delta_i=-1}|$

p_{+} = | i : δ_{i} = + 1 |

$p_+=|{i:\delta_i=+1}|$

Commentaires pour des approches plus avancées

Si vous voulez prendre en compte les cas où est le dernier état observé (certainement plus intelligent car lorsque vous passez par , il s'agit souvent de votre dernier score ...), vous devez modifier un peu le raisonnement. La censure correspondante est relativement classique ... $i$ $-1$

Une autre approche possible peut inclure la possibilité de

Avoir une intensité qui diminue avec le temps
Avoir une intensité qui diminue avec le temps passé depuis le dernier vote (je préfère celui-ci. Dans ce cas, il existe une méthode classique de modélisation de la diminution de la densité ...
Vous pouvez supposer que est une fonction lisse de $\mu_i^+$ $i$
.... vous pouvez proposer d'autres idées!

robin girard
la source