Je soupçonne que la plupart des utilisateurs d'outils statistiques sont des utilisateurs auxiliaires (des gens qui ont peu ou pas de formation formelle en statistique). Il est très tentant pour les chercheurs et autres professionnels d'appliquer des méthodes statistiques à leurs données simplement parce qu'ils les ont vues «faites auparavant» dans des articles évalués par des pairs, de la littérature grise, sur le Web ou lors d'une conférence. Cependant, le faire sans une compréhension claire des hypothèses requises et des limites de l'outil statistique peut conduire à des résultats erronés - des erreurs souvent non reconnues!
Je trouve que les étudiants de premier cycle (en particulier dans les sciences sociales et naturelles) ne connaissent pas les pièges statistiques ou trouvent ces pièges sans conséquence (ce dernier étant le plus souvent le cas). Bien que des exemples d'utilisation inappropriée d'outils statistiques puissent être trouvés dans de nombreux manuels d'introduction, sur le Web ou sur StackExchange, j'ai du mal à trouver des exemples concrets qui ont eu des résultats préjudiciables (par exemple, coût en $, vies affectées et carrières perdues) . À cette fin, je recherche des exemples concrets qui mettent en évidence l'utilisation abusive de méthodes statistiques pour lesquelles:
- les méthodes statistiques utilisées sont généralement couvertes dans les cours d' introduction aux statistiques (c.-à-d. statistiques inférentielles, régressions, etc.)
- le résultat final a eu des conséquences coûteuses (dollars perdus, vies impactées, carrières brisées etc…)
- les données sont facilement disponibles pour être utilisées comme exemples de travail dans un cours (le but est de demander aux étudiants de travailler sur des exemples du monde réel qui ont eu des conséquences réelles.)
Un exemple non statistique que j'aime donner aux étudiants lorsqu'ils discutent de l'importance de bien définir les unités dans un projet de recherche est le «mésaventure métrique» qui a entraîné la perte d'un satellite de 125 millions de dollars! Cela invoque généralement un facteur: -o de la part des étudiants et semble avoir une impression durable (au moins tout au long de leur courte vie académique).
la source
Réponses:
Je ne suis pas sûre de la disponibilité des données, mais un bon exemple (si c'est le bon mot) de mauvaises statistiques est l'étude des infirmières de Harvard sur l'efficacité de l'hormonothérapie substitutive (THS) chez les femmes ménopausées.
Quelle est l'idée générale? L'étude des infirmières a suggéré que le THS était bénéfique pour les femmes ménopausées. Il s'avère que ce résultat est dû au fait que le groupe témoin était très différent du groupe de traitement et que ces différences n'étaient pas prises en compte dans l'analyse. Dans les essais randomisés ultérieurs, le THS a été lié au cancer, à la crise cardiaque, à l'AVC et aux caillots sanguins. Avec des corrections appropriées, l'étude des infirmières révèle également ces tendances.
Je ne trouve pas d'estimations pour les décès américains liés au THS, mais l'ampleur était de plusieurs dizaines de milliers. Un article relie 1000 décès au Royaume-Uni au THS.
Cet article du New York Times Magazine fournit un bon contexte statistique des problèmes de confusion présents dans l'étude.
Il y a une discussion académique dans ce numéro de l'American Journal of Epidemiology. Les articles comparent les résultats de l'étude observationnelle des infirmières à ceux de la Women's Health Initiative, sur la base d'essais randomisés.
Il y a aussi une discussion (par plusieurs des mêmes personnes) dans un numéro de Biometrics Voir le commentaire de Freedman et Petitti en particulier [ version prépub ].
la source
Un merveilleux exemple historique est fourni par la publication de 1933 du Triomphe de la médiocrité en affaires d'Horace Secrist . À l'époque, Secrist était un statisticien bien établi, auteur d'un manuel (vers 1919, je me souviens), bien connecté à l'American Statistical Association et chef d'un groupe de recherche statistique à la Northwestern University. Lui et son personnel avaient passé la décennie précédente à compiler des séries chronologiques de données commerciales, qui sont reproduites et minutieusement analysées dans le livre. Il devait être un chef-d'œuvre d'un statisticien ambitieux.
La critique du livre par Harold Hotelling , parue dans la JASA plus tard cette année-là, a souligné que Secrist avait simplement documenté des centaines d'exemples de régression vers la moyenne (un sujet fondamental dans tout cours d'introduction à la statistique aujourd'hui, point n ° 1 de la question). Secrist s'y est opposé dans une réponse publiée. La réponse de Hotelling à cela est un classique:
[JASA c. 29 # 186, juin 1934, p. 199.]
Secrist semble avoir rapidement disparu de la scène statistique peu de temps après («carrières ruinées», point n ° 2 de la question). Son livre est toujours disponible. (Il y a quelques années, j'ai obtenu une belle copie propre, évidemment peu lue, grâce au prêt entre bibliothèques.) De là, vous pouvez extraire un nombre illimité d'exemples de jeux de données (point n ° 3 de la question).
Steven Stigler raconte cette histoire dans un livre et un article, L'histoire des statistiques en 1933 .
la source
Il me semble que le point de vue de Wired sur le krach boursier de 2008 pourrait être un exemple instructif. Je ne peux pas dire si ses conclusions sont correctes ou non, mais l'idée d'utiliser des corrélations sur des données qui ne sont pas un échantillon représentatif semble être quelque chose qui pourrait être approprié aux circonstances que vous suggérez. Il est également à jour et pourrait donc les garder intéressés.
la source
J'ai pensé que vous pourriez trouver ce Ted Talk intéressant et pertinent:
la source