Souhaitez-vous signaler ces données comme frauduleuses?

Supposons que vous ayez reçu des données d'un modèle de bloc aléatoire avec 4 répétitions et 23 traitements. Après une première inspection des données, vous constatez que pour 8 traitements toutes les répétitions sont identiques, ce qui est évidemment faux. Après avoir signalé le problème, vous êtes informé qu'il est dû à une confusion de la part du responsable des données, qui vous enverra ultérieurement la "version correcte" des données. La version corrigée des données ressemblerait à ceci:

Valeur du représentant de traitement 
   A 1 5727.000
   A 2 5400.000
   A 3 5800.000
   A 4 5473.000
   B 1 4618.000
   B 2 4844.000
   B 3 4966.000
   B 4 4496.000 
...
   Z 1 4329.345
   Z 2 4597.275
   Z 3 4833.246
   Z 4 4199.098

La première chose qui attirerait mon attention dans ces données serait le fait que seuls les huit traitements pour lesquels le problème a été signalé n'avaient pas de fraction décimale (tous les traitements restants étant très bien). Je déciderais donc de les examiner de plus près et de soustraire chaque observation de sa moyenne d'échantillon dans les traitements, en trouvant quelque chose comme

Traitement Rep Value Delta
   A 1 5727.000 +127
   A 2 5400.000 -200
   A 3 5800.000 +200
   A 4 5473.000 -127
   B 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   B 4 4496.000 -235
...
   Z 1 4329.345 ...
   Z 2 4597.275 ...
   Z 3 4833.246 ...
   Z 4 4199.098 ...

Après avoir constaté que les différences sont symétriques par rapport à la moyenne, j'appellerais immédiatement la personne responsable du projet et signalerais le problème. Bien sûr, je renoncerais également à travailler sur ce projet.

Bien que les preuves soient assez convaincantes, il serait bon d'attacher une probabilité au rapport, juste pour donner une idée de la qualité de ces données. J'aurais donc pensé à quelque chose comme ce qui suit et j'aimerais savoir s'il y aurait un défaut dans mon raisonnement:

Disons que si les données étaient légitimes, il serait raisonnable de supposer la normalité pour ce type de données, sur la base de l'expérience tirée de l'analyse précédente de ce type de données.

Définissons donc 4 iid variables aléatoires normales pour chacune des quatre répétitions de chaque traitement:

X_{je} \sim N (μ_{X}, σ_{X}); je = 1, 2, 3, 4

$X_i\sim N(\mu_X,~\sigma_X); ~~~i = 1, 2, 3, 4$ La symétrie (avec une tolérance de 0,5) observée ci-dessus pourrait s'exprimer comme l'événement:

UNE : - 0,5 < X_{1} + X_{2} - X_{3} - X_{4} < 0,5

$A: -0.5 < X_1 + X_2 - X_3 - X_4 < 0.5$ Il existe encore d'autres façons équivalentes de disposer les échantillons pour satisfaire la symétrie (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3), de sorte que la probabilité de symétrie (S) serait:

P (S) \leq 3 * P (UNE)

$P(S) \leq 3 * P(A)$

L'inégalité est tout simplement parce que je ne veux pas supprimer l'intersection.

Si nous définissons la variable aléatoire Y comme suit:

Oui = X_{1} + X_{2} - X_{3} - X_{4}

$Y = X_1 + X_2 - X_3 - X_4$

Il en résulte:

Oui \sim N (0, 2 * σ_{X})

$Y\sim N(0,~2*\sigma_X)$

Disons qu'à partir des résidus du modèle avec ces données, j'ai estimé la $\sigma_X$ comme 350. À partir de cela, j'utiliserais le CDF de y pour calculer la probabilité que Y tombe entre -0,5 et 0,5, ce qui serait P (A) = 0,0005699175

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

Ainsi, la probabilité de S serait:

P (S) \leq 0,001709752

$P(S) \leq 0.001709752$

Parce qu'il n'y aurait pas d'effet de bloc clair et que les données proviendraient d'une expérience randomisée, il serait raisonnable de supposer une indépendance statistique. Supposons que sur 8 traitements suspects, 3 avaient cette symétrie. Ensuite, en supposant l'indépendance, nous pourrions calculer la probabilité d'un tel événement (appelons-le D) à partir d'une distribution binomiale:

D: 3 des 8 traitements ont une symétrie des observations autour de la moyenne de l'échantillon.

P (ré) \leq (\binom{8}{3}) \cdot p^{3} (1 - p)^{5}

$P(D) \leq {8\choose3} \cdot p^3(1-p)^5$

P (ré) \leq 2.7 \cdot {dix}^{- 7}

$P(D) \leq 2.7 \cdot 10^{-7}$

Je ne suis pas statisticien, j'aimerais donc savoir s'il y a un défaut dans ce raisonnement et si vous déclareriez également les données comme frauduleuses.

probability anova dataset fraud Teo
la source

La question éthique est ici primordiale. Je serais d'accord sur ces informations pour considérer les données comme hautement suspectes et les signaler comme telles; Je n'appellerais jamais «fraude» parce que c'est à d'autres de le déterminer après enquête et dans certains pays, vous pourriez vous exposer à une action en justice ou à sa menace. Quant à joindre une estimation de probabilité, je reculerais. L'affaire est claire (euh) sans elle et à peu près toutes les hypothèses ou approximations sont sujettes à caution.

Nick Cox

D'accord avec Nick Cox. Notez que TOUT schéma de données spécifique est hautement improbable, donc l'estimation de probabilité va juste confondre ce qui autrement est un cas complètement clair et convaincant de données inutilisables (j'utiliserais ce terme ou quelque chose de similaire plutôt que frauduleux).

zbicyclist

Il est très improbable qu'un schéma spécifique se produise de manière aléatoire, mais tous ne sont pas également susceptibles d'être produits de manière concise par l'homme. Comme il n'y a pas de modèle universel de la façon dont un homme «créerait» de telles données, il n'y a pas beaucoup de points dans le calcul des probabilités. Vous pourriez cependant envisager une représentation graphique de la symétrie des données. A à des fins de démonstration B pour donner aux gens une idée de la quantité de ce poisson qui pue.

Bernhard

Des réponses très utiles! En fait, je ne pouvais pas comprendre leur intention à partir de ces données uniquement. La seule chose qui serait hors de tout doute raisonnable est que ces données sont inutilisables (j'ai aimé ce terme).

Teo

Souhaitez-vous signaler ces données comme frauduleuses?

Réponses: