Je collecte chaque jour de très grands échantillons (> 1 000 000) de données catégoriques et je souhaite que les données soient "significativement" différentes d'un jour à l'autre pour détecter les erreurs de collecte de données.
Je pensais que l'utilisation d'un test de bon ajustement (en particulier, un test G) serait un bon ajustement (jeu de mots) pour cela. La distribution attendue est donnée par la distribution de la veille.
Mais, parce que mes échantillons sont si grands, le test a une puissance très élevée et dégage de nombreux faux positifs. C'est-à-dire que même une fluctuation quotidienne très mineure donnera une valeur de p proche de zéro.
J'ai fini par multiplier ma statistique de test par une constante (0,001), ce qui a la bonne interprétation d'échantillonner les données à ce rythme. Cet article semble d'accord avec cette approche. Ils disent ça:
Le chi carré est le plus fiable avec des échantillons d'environ 100 à 2500 personnes
Je recherche des commentaires plus fiables à ce sujet. Ou peut-être des solutions alternatives aux faux positifs lors de l'exécution de tests statistiques sur de grands ensembles de données.
la source
Réponses:
Le test renvoie le résultat correct. Les distributions ne sont pas les mêmes au jour le jour. Bien sûr, cela ne vous est d'aucune utilité. Le problème auquel vous êtes confronté est connu depuis longtemps. Voir: Karl Pearson et RA Fisher sur les tests statistiques: un échange de 1935 avec la nature
Au lieu de cela, vous pouvez regarder les données précédentes (les vôtres ou ailleurs) et obtenir la distribution des changements quotidiens pour chaque catégorie. Ensuite, vous vérifiez si le changement actuel est susceptible de s'être produit compte tenu de cette distribution. Il est difficile de répondre plus précisément sans connaître les données et les types d'erreurs, mais cette approche semble plus adaptée à votre problème.
la source
Allons de l'avant et tuons la vache sacrée de 5%.
Vous avez (à juste titre) souligné que le problème est celui de la puissance exubérante du test. Vous voudrez peut-être le recalibrer vers une puissance plus pertinente, comme disons une valeur plus traditionnelle de 80%:
(Veuillez vérifier mes calculs, c'est un niveau ridicule de test, mais c'est ce que vous vouliez avec vos Big Data, n'est-ce pas? D'un autre côté, si vous voyez régulièrement Pearson dans la plage d'un couple cent, cela peut être une valeur critique tout à fait significative à divertir.)χ2
Gardez à l'esprit que les approximations, à la fois pour le nul et pour l'alternative, peuvent mal fonctionner dans les queues, voir cette discussion .
la source
Dans ces cas, mon professeur a suggéré de calculer le V de Cramér qui est une mesure d'association basée sur la statistique du chi carré. Cela devrait vous donner la force et vous aider à décider si le test est hypersensible. Mais, je ne sais pas si vous pouvez utiliser le V avec le type de statistique que les tests G2 renvoient.
Cela devrait être la formule pour V:
où est le grand total des observations et est le nombre de lignes ou le nombre de colonnes, le plus petit des deux. Ou pour les tests d'adéquation, le est apparemment le non. de rangées.k kn k k
la source
Une approche consisterait à donner plus de sens aux tests d'adéquation en les effectuant sur des blocs de données plus petits.
Vous pouvez diviser vos données d'un jour donné en, par exemple, 1000 blocs de 1000 échantillons chacun, et exécuter un test de qualité d'ajustement individuel pour chaque bloc, avec la distribution attendue donnée par l'ensemble de données complet du jour précédent. Gardez le niveau de signification pour chaque test individuel au niveau que vous utilisiez (par exemple ). Recherchez ensuite des écarts significatifs entre le nombre total de tests positifs et le nombre attendu de faux positifs (sous l'hypothèse nulle qu'il n'y a pas de différence dans les distributions, le nombre total de tests positifs est binomialement distribué, avec le paramètre ).αα=0.05 α
Vous pouvez trouver une bonne taille de bloc à utiliser en prenant des ensembles de données de deux jours où vous pouvez supposer que la distribution est la même, et en voyant quelle taille de bloc donne une fréquence de tests positifs qui est à peu près égale à (c'est-à-dire quelle taille de bloc s'arrête votre test de signalement de différences parasites).α
la source