Je sais, cela peut sembler hors sujet, mais écoutez-moi.
Au débordement de pile et ici nous obtenons des votes sur les articles, tout cela est stocké dans un tableau.
Par exemple:
post id id électeur type de vote date / heure ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01
... etc. Le type de vote 2 est un vote positif, le type de vote 3 est un vote négatif. Vous pouvez interroger une version anonymisée de ces données à l' adresse http://data.stackexchange.com.
Il y a une perception que si un message atteint le score de -1 ou moins, il est plus susceptible d'être voté. Cela peut être simplement un biais de confirmation ou il peut être enraciné dans les faits.
Comment analyserions-nous ces données pour confirmer ou infirmer cette hypothèse? Comment pourrions-nous mesurer l'effet de ce biais?
Réponses:
Vous pouvez utiliser un modèle multi-états ou une chaîne de Markov (le package msm dans R est un moyen de les adapter). Vous pouvez ensuite voir si la probabilité de transition de -1 à 0 est supérieure à 0 à 1, de 1 à 2, etc. Vous pouvez également regarder le temps moyen à -1 par rapport aux autres pour voir s'il est plus court. .
la source
Mener une expérience. Voter aléatoirement la moitié des nouveaux postes à une heure donnée chaque jour.
la source
Résumé de ma réponse. J'aime la modélisation de la chaîne de Markov, mais elle manque l'aspect "temporel". À l’autre extrémité, la focalisation sur l’aspect temporel (par exemple le temps moyen à ) passe à côté de l’aspect "transition". J'irais dans la modélisation générale suivante (qui avec l'hypothèse appropriée peut conduire à [processus de markov] [1]). De plus, il y a beaucoup de statistiques "censurées" derrière ce problème (qui est certainement un problème classique de la fiabilité des logiciels?). La dernière équation de ma réponse donne l’estimateur du maximum de vraisemblance de l’intensité du vote (+ + et au lieu de "-") pour un état de vote donné. Comme on peut le voir à partir de l'équation, c'est un intermédiaire du cas où vous estimez seulement la probabilité de transition et du cas où vous ne mesurez que le temps passé dans un état donné. J'espère que cette aide.−1
Modélisation générale (pour reformuler la question et les hypothèses). Soit et des variables aléatoires modélisant respectivement les dates de vote et le signe de vote associé (+1 pour vote positif, -1 pour vote négatif). Le processus de vote est simplement(VDi)i≥1 (Si)i≥1
La quantité importante ici est l’intention de -jump où peut être ou et est un bon filtrage, dans le cas des genres, sans autre connaissance, ce serait : .ϵ
mais dans le sens de votre question, je pense que vous supposez implicitement que Cela signifie que pour il existe une séquence déterministe tel que .
Dans ce formalisme, votre question peut être reformulée de la manière suivante: "il est probable que " (ou du moins la différence est-elle supérieure à seuil donné).μ+−1−μ+0>0
Sous cette hypothèse, il est facile de montrer que est un [processus de markov homogène] [3] sur avec le générateur donné parYt Z Q
Répondre à la question (en proposant un estimat de maximum de vraisemblance pour le problème statistique) À partir de cette reformulation, le problème est résolu en estimant et en construisant un test à partir de ses valeurs. Fixons et oublions l' indice sans perte de généralité. L’estimation de (et ) peut être faite grâce à l’observation dei(μ+i) i μ+ μ−
Si vous oubliez le cas du dernier état d'observation, les couples mentionnés proviennent d'une distribution dépendant de et de : elle est distribuée sous la forme (où Exp est un var aléatoire d'une distribution exponentielle et est + ou -1 en fonction de celui qui réalise le max). Ensuite, vous pouvez utiliser le lemme simple suivant (la preuve est simple):μ+i μ−i (min(Exp(μ+i),Exp(μ−i)),η) η
Lemme Si et alors et .X+⇝Exp(μ+) X−⇝Exp(μ−) T=min(X+,X−)⇝Exp(μ++μ−) P(X+1<X−)=μ+μ++μ−
Cela implique que la densité de est donnée par: où pour est la fonction de densité d'une variable aléatoire exponentielle avec le paramètre . Il est facile de déduire de cette expression l'estimateur du maximum de vraisemblance de et :f(t,ϵ) (T,η)
Commentaires pour des approches plus avancées
Si vous voulez prendre en compte les cas où est le dernier état observé (certainement plus intelligent car lorsque vous passez par , il s'agit souvent de votre dernier score ...), vous devez modifier un peu le raisonnement. La censure correspondante est relativement classique ...i −1
Une autre approche possible peut inclure la possibilité de
la source