Je suis un étudiant diplômé en psychologie et, au fur et à mesure que je poursuis mes études indépendantes en statistique, je suis de plus en plus émerveillé par l'insuffisance de ma formation. Les expériences personnelles et de seconde main suggèrent que le manque de rigueur statistique dans la formation de premier et deuxième cycles est plutôt omniprésent en psychologie. En tant que tel, j’ai pensé qu’il serait utile pour les apprenants indépendants comme moi de dresser une liste de "péchés statistiques", en faisant la synthèse des pratiques statistiques enseignées aux étudiants des cycles supérieurs en tant que pratiques standard qui sont en fait remplacées par des méthodes supérieures (plus puissantes, ou flexibles, ou robustes, etc.) ou démontrés comme étant carrément invalides. Prévoyant que d'autres domaines pourraient également connaître une situation similaire, je propose un wiki de communauté sur lequel nous pouvons collecter une liste de péchés statistiques dans différentes disciplines.
227
Réponses:
Ne pas regarder (tracer) les données.
la source
La plupart des interprétations des valeurs p sont des péchés! L'utilisation conventionnelle de p-values est gravement défectueuse; un fait qui, à mon avis, remet en question les approches classiques de l’enseignement des tests d’hypothèses et des tests de signification.
Haller et Krause ont constaté que les professeurs de statistiques sont presque aussi susceptibles que les étudiants d'interpréter de manière erronée les valeurs p. (Faites le test dans leur document et voyez comment vous vous en tirerez.) Steve Goodman plaide bien en faveur du rejet de l'utilisation (erronée) conventionnelle de la valeur p en faveur des probabilités. Le papier Hubbard vaut également le détour.
Haller et Krauss. Mauvaise interprétation de l'importance: problème que les élèves partagent avec leurs enseignants . Methods of Psychological Research (2002), vol. 7 (1) pp. 1-20 ( PDF )
Hubbard et Bayarri. Confusion sur les mesures des preuves (p) par rapport aux erreurs (α) dans les tests statistiques classiques . Le statisticien américain (2003), vol. 57 (3)
Homme bon. Vers des statistiques médicales fondées sur des preuves. 1: L'erreur fallacieuse. Ann Intern Med (1999), vol. 130 (12) pages 995-1004 ( PDF )
Regarde aussi:
Wagenmakers, EJ. Une solution pratique aux problèmes omniprésents des valeurs p. Psychonomic Bulletin & Review, 14 (5), 779-804.
pour certains cas bien précis où même l'interprétation nominalement "correcte" d'une valeur p a été rendue incorrecte en raison des choix faits par l'expérimentateur.
Mise à jour (2016) : en 2016, l'American Statistical Association a publié une déclaration sur les valeurs p, voir ici . C'était en quelque sorte une réponse à "l'interdiction des valeurs p" publiée par un journal de psychologie environ un an plus tôt.
la source
Le piège le plus dangereux que j'ai rencontré lors de l'élaboration d'un modèle prédictif est de ne pas réserver tôt un jeu de données de test afin de le dédier à l'évaluation "finale" des performances.
Il est très facile de surestimer la précision prédictive de votre modèle si vous avez une chance d'utiliser les données de test lors du réglage des paramètres, de la sélection préalable, du critère d'arrêt de l'algorithme d'apprentissage ...
Pour éviter ce problème, avant de commencer votre travail sur un nouvel ensemble de données, vous devez fractionner vos données comme suit:
Divisez ensuite votre ensemble de développement en "ensemble de développement de formation" et "ensemble de développement de test", dans lesquels vous utiliserez le kit de développement de formation pour former divers modèles avec différents paramètres et sélectionner les meilleurs résultats en fonction de leurs performances sur l'ensemble de développement de test. Vous pouvez également effectuer une recherche sur la grille avec validation croisée, mais uniquement sur le jeu de développement. Ne jamais utiliser l'ensemble d'évaluation tant que la sélection du modèle n'est pas effectuée à 100%.
Une fois que vous êtes sûr de la sélection du modèle et des paramètres, effectuez une validation croisée de 10 plis sur l'ensemble d'évaluation pour avoir une idée de la précision "réelle" de la précision du modèle sélectionné.
De plus, si vos données sont temporelles, il est préférable de choisir la division développement / évaluation sur un code temporel: "Il est difficile de faire des prédictions - en particulier pour l'avenir."
la source
Signaler les valeurs p lorsque vous avez exploré des données (découverte d'hypothèses) au lieu de statistiques (tests d'hypothèses).
la source
Tester les hypothèses versus H 1 : μ ≠ 0 (par exemple en gaussien)H0: μ = 0 H1: μ ≠ 0
justifier que dans un modèle (c'est-à-dire que le mélange " H 0 n'est pas rejeté" et " H 0 est vrai").μ = 0 H0 H0
Un très bon exemple de ce type de (très mauvais) raisonnement consiste à vérifier si les variances de deux Gaussiennes sont égales (ou non) avant de tester si leur moyenne est égale ou non avec l'hypothèse d'une variance égale.
Un autre exemple se produit lorsque vous testez la normalité (par rapport à la non normalité) pour justifier la normalité. Chaque statisticien a fait cela dans sa vie? c'est baaad :) (et devrait pousser les gens à vérifier la robustesse à la non gaussianité)
la source
Quelques erreurs qui me dérangent:
En supposant que les estimateurs non biaisés soient toujours meilleurs que les estimateurs biaisés.
En supposant qu'un élevé implique un bon modèle, un inférieur implique un mauvais modèle.R 2R2 R2
Interprétation / application incorrecte de la corrélation.
Rapport des estimations ponctuelles sans erreur type.
Utilisation de méthodes qui supposent une sorte de normalité multivariée (telle que l’analyse discriminante linéaire) lorsque des méthodes plus robustes, plus performantes et non / semi-paramétriques sont disponibles.
Utilisation de la valeur p comme mesure de la force entre un prédicteur et la réponse, plutôt que comme mesure du nombre de preuves d’ une relation.
la source
Dichotomisation d'une variable prédictive continue pour "simplifier" l'analyse ou pour résoudre le "problème" de non-linéarité de l'effet du prédicteur continu.
la source
Pas vraiment répondre à la question, mais il y a un livre entier sur ce sujet:
Phillip I. Good, James William Hardin (2003). Erreurs courantes dans les statistiques (et comment les éviter). Wiley. ISBN 9780471460688
la source
interpréter
Probability(data | hypothesis)
commeProbability(hypothesis | data)
sans l'application du théorème de Bayes.la source
Statistiques ritualisées.
Ce "péché" se produit lorsque vous appliquez tout ce qui vous a été enseigné, quelle que soit sa pertinence, car c'est ainsi que les choses se font. Ce sont des statistiques par cœur, un niveau au-dessus, permettant à la machine de choisir vos statistiques pour vous.
Exemples: les étudiants de niveau statistique essayant de tout adapter à leur modeste test t et ANOVA, ou chaque fois que l’on se retrouve "Oh, j’ai des données catégoriques, je devrais utiliser X" sans jamais arrêter de regarder les données, ou considérez la question posée.
Une variante de ce péché implique l'utilisation d'un code que vous ne comprenez pas pour produire une sortie que vous comprenez seulement, mais que vous connaissez "la cinquième colonne, environ 8 lignes vers le bas" ou la réponse que vous êtes censé rechercher.
la source
Peut-être une régression pas à pas et d’autres formes de test après la sélection du modèle.
La sélection de variables indépendantes pour la modélisation sans aucune hypothèse a priori derrière les relations existantes peut conduire à des erreurs logiques ou à des corrélations fallacieuses, entre autres erreurs.
Références utiles (du point de vue biologique / biostatistique):
Kozak, M. et Azevedo, R. (2011). L'utilisation de la sélection de variables par étapes pour créer des modèles d'analyse de chemin séquentiel est-elle utile? Physiologia plantarum, 141 (3), 197-200. doi: 10.1111 / j.1399-3054.2010.01431.x
Whittingham, MJ, Stephens, P., Bradbury, RB et Freckleton, RP (2006). Pourquoi utilisons-nous toujours la modélisation par étapes en écologie et en comportement? The Journal of animal ecology, 75 (5), 1182-189. doi: 10.1111 / j.1365-2656.2006.01141.x
Frank Harrell, Stratégies de modélisation de régression , Springer 2001.
la source
Une chose qui me surprend dans les documents de conférence et même dans les journaux est de faire de multiples comparaisons (par exemple des corrélations bivariées) puis de rapporter tous les p <0,05 comme "significatifs" (en ignorant le bien ou le mal de cela pour le moment).
Je sais aussi ce que vous voulez dire à propos des diplômés en psychologie - j'ai terminé un doctorat en psychologie et je suis encore en train d'apprendre vraiment. C'est assez mauvais, je pense que la psychologie doit prendre plus au sérieux l'analyse de données quantitatives si nous allons l'utiliser (ce qui, clairement, devrait l'être)
la source
Être exploratoire mais prétendre être confirmatoire. Cela peut se produire lorsque l’on modifie la stratégie d’analyse (ajustement du modèle, sélection de variable, etc.) en fonction des données ou des résultats, mais sans le déclarer ouvertement et en ne rapportant que les "meilleurs" résultats (c.-à-d. Avec les plus petites valeurs p) comme si c'était la seule analyse. Cela concerne également le point si plusieurs tests ont été effectués par Chris Beeley et conduit à un taux de faux positifs élevé dans les rapports scientifiques.
la source
Ce que je vois assez souvent et qui me dérange toujours, c’est l’hypothèse qu’un effet principal statistiquement significatif dans un groupe et un effet principal non statistiquement significatif dans un autre groupe impliquent une interaction effet x groupe significative.
la source
Surtout en épidémiologie et en santé publique - utiliser l’arithmétique au lieu de l’échelle logarithmique pour rapporter des graphiques de mesures d’association relatives (ratio de risque, odds ratio ou ratio de risque).
Plus d'informations ici .
la source
La corrélation implique une causalité, ce qui n’est pas aussi grave que d’accepter l’hypothèse nulle.
la source
A and B are correlated
ordinaire seulement voirA causes B
mais pasB causes A
... (et oublierC
quelles causesA
etB
)Analyse des données de débit (précision, etc.) à l'aide d'une ANOVA, en supposant que les données de débit présentent une erreur distribuée gaussienne alors qu'elles sont effectivement distribuées de manière binomiale. Dixon (2008) analyse les conséquences de ce péché et explore des approches d'analyse plus appropriées.
la source
Un exemple courant consiste à tracer des intervalles de confiance de 95% autour des valeurs de performance brutes dans les conceptions à mesures répétées, lorsqu'elles ne concernent que la variance d'un effet. Par exemple, une représentation graphique des temps de réaction dans un plan de mesures répétées avec des intervalles de confiance où le terme d'erreur est dérivé de la MSE d'une ANOVA à mesures répétées. Ces intervalles de confiance ne représentent rien de raisonnable. Ils ne représentent certainement rien du temps de réaction absolu. Vous pouvez utiliser le terme d'erreur pour générer des intervalles de confiance autour de l'effet, mais cela est rarement fait.
la source
Même si je peux comprendre une bonne partie de ce que dit Michael Lew, abandonner les valeurs p au profit des ratios de vraisemblance omet toujours un problème plus général - celui de mettre trop l’accent sur les résultats probabilistes plutôt que sur la taille des effets, qui sont nécessaires pour donner une signification réelle au résultat. Ce type d’erreur se présente sous toutes les formes et tailles et j’estime qu’il s’agit de l’erreur statistique la plus insidieuse. S'inspirant de J. Cohen, M. Oakes et d'autres, j'ai écrit un article à ce sujet sur http://integrativestatistics.com/insidious.htm .
la source
Ne pas tester l'hypothèse selon laquelle l'erreur est normalement distribuée et présente une variance constante entre les traitements. Ces hypothèses n'étant pas toujours vérifiées, l'ajustement du modèle des moindres carrés est probablement souvent utilisé lorsqu'il est en réalité inapproprié.
la source
Mon cours de psychométrie d'introduction au premier cycle a duré au moins deux semaines pour apprendre à effectuer une régression par étapes. Existe-t-il une situation où la régression par étapes est une bonne idée?
la source
Mon ancien prof de statistiques avait une "règle de base" pour traiter les valeurs aberrantes: Si vous voyez une valeur aberrante sur votre diagramme de dispersion, couvrez-le avec votre pouce :)
la source
C’est peut-être plus une réponse pop-stats que ce que vous recherchez, mais:
Utilisation de la moyenne comme indicateur de localisation lorsque les données sont fortement asymétriques .
Ce n'est pas nécessairement un problème si votre public et vous savez de quoi vous parlez, mais ce n'est généralement pas le cas et la médiane est souvent susceptible de donner une meilleure idée de ce qui se passe.
Mon exemple préféré est le salaire moyen, généralement qualifié de "salaire moyen". En fonction de l'inégalité de revenu / richesse dans un pays, celle-ci peut être très différente du salaire médian, ce qui donne un bien meilleur indicateur de la situation réelle des personnes. Par exemple, en Australie, où l’inégalité est relativement faible, la médiane est inférieure de 10 à 15% à la moyenne . Aux États-Unis, la différence est beaucoup plus marquée , la médiane étant inférieure à 70% de la moyenne et l'écart se creuse.
Rendre compte du salaire "moyen" donne une image plus rose que ce qui est justifié, et pourrait également donner à un grand nombre de personnes la fausse impression qu'elles ne gagnent pas autant que des personnes "normales".
la source
Que la valeur p soit la probabilité que l'hypothèse nulle soit vraie et que (1-p) soit la probabilité que l'hypothèse alternative soit vraie, que le fait de ne pas rejeter l'hypothèse nulle signifie que l'hypothèse alternative est fausse, etc.
la source
Dans la même veine que @dirkan - L’utilisation des valeurs p comme mesure formelle de la preuve que l’hypothèse nulle est vraie. Il a quelques bonnes caractéristiques heuristiques et intuitivement bonnes, mais il s'agit essentiellement d'une mesure incomplète de la preuve, car il ne fait aucune référence à l'hypothèse alternative. Alors que les données peuvent être improbables sous la valeur nulle (conduisant à une petite valeur p), les données peuvent être encore plus improbables sous l'hypothèse alternative.
la source
Utilisation de camemberts pour illustrer les fréquences relatives. Plus ici .
la source
Utilisation de statistiques / probabilités dans les tests d’hypothèses pour mesurer la "vérité absolue". Les statistiques ne peuvent simplement pas le faire, elles ne peuvent être utiles que pour choisir entre des alternatives , qui doivent être spécifiées de "en dehors" du paradigme statistique. Des affirmations telles que "l'hypothèse nulle est vérifiée par les statistiques" sont tout simplement incorrectes; les statistiques ne peuvent que vous dire que "l'hypothèse nulle est favorisée par les données, par rapport à l'hypothèse alternative". Si vous supposez alors que l'hypothèse nulle ou l'alternative doit être vraie, vous pouvez dire "la valeur prouvée nulle", mais il ne s'agit que d'une conséquence triviale de votre hypothèse, et non de ce que les données démontrent.
la source
Et similaire (ou presque identique) à la réponse de @ ogrisel , effectuez une recherche sur la grille et ne signalez que le meilleur résultat.
la source
(Avec un peu de chance, ce sera controversé.)
Utiliser une approche de Neyman-Pearson pour l'analyse statistique d'expériences scientifiques. Ou, pire, en utilisant un hybride mal défini de Neyman-Pearson et Fisher.
la source
Demander et peut-être obtenir The Flow Chart : Ce graphique où vous indiquez le niveau de vos variables et le type de relation que vous recherchez, et vous suivez les flèches vers le bas pour obtenir un test de nom de marque ou une statistique de nom de marque . Parfois offert avec des chemins mystérieux «paramétriques» et «non paramétriques».
la source