Exemples de conséquences coûteuses d'une mauvaise utilisation des outils statistiques

12

Je soupçonne que la plupart des utilisateurs d'outils statistiques sont des utilisateurs auxiliaires (des gens qui ont peu ou pas de formation formelle en statistique). Il est très tentant pour les chercheurs et autres professionnels d'appliquer des méthodes statistiques à leurs données simplement parce qu'ils les ont vues «faites auparavant» dans des articles évalués par des pairs, de la littérature grise, sur le Web ou lors d'une conférence. Cependant, le faire sans une compréhension claire des hypothèses requises et des limites de l'outil statistique peut conduire à des résultats erronés - des erreurs souvent non reconnues!

Je trouve que les étudiants de premier cycle (en particulier dans les sciences sociales et naturelles) ne connaissent pas les pièges statistiques ou trouvent ces pièges sans conséquence (ce dernier étant le plus souvent le cas). Bien que des exemples d'utilisation inappropriée d'outils statistiques puissent être trouvés dans de nombreux manuels d'introduction, sur le Web ou sur StackExchange, j'ai du mal à trouver des exemples concrets qui ont eu des résultats préjudiciables (par exemple, coût en $, vies affectées et carrières perdues) . À cette fin, je recherche des exemples concrets qui mettent en évidence l'utilisation abusive de méthodes statistiques pour lesquelles:

  1. les méthodes statistiques utilisées sont généralement couvertes dans les cours d' introduction aux statistiques (c.-à-d. statistiques inférentielles, régressions, etc.)
  2. le résultat final a eu des conséquences coûteuses (dollars perdus, vies impactées, carrières brisées etc…)
  3. les données sont facilement disponibles pour être utilisées comme exemples de travail dans un cours (le but est de demander aux étudiants de travailler sur des exemples du monde réel qui ont eu des conséquences réelles.)

Un exemple non statistique que j'aime donner aux étudiants lorsqu'ils discutent de l'importance de bien définir les unités dans un projet de recherche est le «mésaventure métrique» qui a entraîné la perte d'un satellite de 125 millions de dollars! Cela invoque généralement un facteur: -o de la part des étudiants et semble avoir une impression durable (au moins tout au long de leur courte vie académique).

MannyG
la source
2
Un autre exemple non statistique d'Edward Tufte, Powerpoint fait Rocket Science . Bien qu'il soit un peu plus étroitement lié à la progression logique de la pensée statistique en général que l'incident métrique que vous mentionnez. Connaissez-vous également ce livre, Le culte de la signification statistique ?
Andy W
@AndyW, je ne connais pas "Le culte de la signification statistique". Savez-vous si les éléments 2 / et 3 / de ma question sont abordés dans ce livre?
MannyG
Je ne sais pas à propos de 3, mais si vous lisez la critique du livre que je lierais, cela répondrait à votre question 2 (ou lire le titre restant du livre!) En effet, le livre entier est destiné à être sur votre question # 2 en référence pour interpréter les tests de signification.
Andy W
@AndyW c'est le livre même que j'allais mentionner.
Peter Flom - Réintègre Monica
@AndyW, bien que la revue que vous liez fasse référence à l'un des exemples concrets d'utilisation incorrecte des statistiques du livre, il n'est pas clair pour moi si le coût conséquent est abordé. Si les coûts indirects sont abordés dans le livre, sont-ils basés sur des analyses indépendantes ou sur l'opinion subjective des auteurs?
MannyG

Réponses:

8

Je ne suis pas sûre de la disponibilité des données, mais un bon exemple (si c'est le bon mot) de mauvaises statistiques est l'étude des infirmières de Harvard sur l'efficacité de l'hormonothérapie substitutive (THS) chez les femmes ménopausées.

Quelle est l'idée générale? L'étude des infirmières a suggéré que le THS était bénéfique pour les femmes ménopausées. Il s'avère que ce résultat est dû au fait que le groupe témoin était très différent du groupe de traitement et que ces différences n'étaient pas prises en compte dans l'analyse. Dans les essais randomisés ultérieurs, le THS a été lié au cancer, à la crise cardiaque, à l'AVC et aux caillots sanguins. Avec des corrections appropriées, l'étude des infirmières révèle également ces tendances.

Je ne trouve pas d'estimations pour les décès américains liés au THS, mais l'ampleur était de plusieurs dizaines de milliers. Un article relie 1000 décès au Royaume-Uni au THS.

Cet article du New York Times Magazine fournit un bon contexte statistique des problèmes de confusion présents dans l'étude.

Il y a une discussion académique dans ce numéro de l'American Journal of Epidemiology. Les articles comparent les résultats de l'étude observationnelle des infirmières à ceux de la Women's Health Initiative, sur la base d'essais randomisés.

Il y a aussi une discussion (par plusieurs des mêmes personnes) dans un numéro de Biometrics Voir le commentaire de Freedman et Petitti en particulier [ version prépub ].

Charlie
la source
1
Je plaiderais contre l'utilisation de cet exemple en fait. Il y a eu plus de travail depuis 2005, en particulier par Miguel Hernan, voir Études observationnelles analysées comme des expériences randomisées: une application à l'hormonothérapie postménopausique et aux maladies coronariennes , Épidémiologie (2008). La conclusion: "En résumé, nos résultats suggèrent que les écarts entre les estimations ITT WHI et NHS pourraient être largement expliqués par des différences dans la distribution du temps depuis la ménopause et la durée du suivi. La confusion résiduelle pour l'effet de l'initiation du Le NHS semble jouer peu de rôle. "
Fomite
Peu importe ce que l'on pense de ces études, les différences entre elles sont plus délicates et plus compliquées que ce qui est probablement utile dans le cadre proposé par le PO.
Fomite
@EpiGrad, Ce n'est certainement pas mon domaine et je suis sûr que vous en savez plus sur cet exemple particulier que moi. Mais je pense que le document que vous citez fait valoir que ces autres documents le font. Dans le document OSALRE, ils rejettent les femmes de l'étude NHS qui ne répondent pas aux critères de l'étude WHI. La proportion de femmes rejetées doit varier entre les groupes de traitement et de contrôle du NHS (sinon les résultats ne changeraient pas). Ils annulent ainsi le problème de sélection trouvé dans l'étude NHS. [[Suite]]
Charlie
1
Le papier que j'ai aimé suggère, au moins pour moi, quelque chose de plus dans le sens de "Assurez-vous que vous posez la même question" plutôt qu'un problème de confusion pure et simple. Ne vous méprenez pas, la question du NHS / WHI est extrêmement intéressante en tant que question de pratique statistique et de santé publique. C'est juste plus complexe que ne semble le laisser entendre le désaccord initial, et je pense que cela rend quelque peu inapproprié le point 1 de la demande du PO. Le point 3 est également sorti.
Fomite
2
@EpiGrad, assez juste. Mais je doute sérieusement que vous trouverez une étude qui présente une erreur statistique flagrante qui ne nécessite pas de fouilles pour comprendre qu'elle a eu des conséquences étendues et substantielles. Peut-être que d'autres répondants tueront mon optimisme chez les chercheurs (heh).
Charlie
8

Un merveilleux exemple historique est fourni par la publication de 1933 du Triomphe de la médiocrité en affaires d'Horace Secrist . À l'époque, Secrist était un statisticien bien établi, auteur d'un manuel (vers 1919, je me souviens), bien connecté à l'American Statistical Association et chef d'un groupe de recherche statistique à la Northwestern University. Lui et son personnel avaient passé la décennie précédente à compiler des séries chronologiques de données commerciales, qui sont reproduites et minutieusement analysées dans le livre. Il devait être un chef-d'œuvre d'un statisticien ambitieux.

La critique du livre par Harold Hotelling , parue dans la JASA plus tard cette année-là, a souligné que Secrist avait simplement documenté des centaines d'exemples de régression vers la moyenne (un sujet fondamental dans tout cours d'introduction à la statistique aujourd'hui, point n ° 1 de la question). Secrist s'y est opposé dans une réponse publiée. La réponse de Hotelling à cela est un classique:

«Prouver» un tel résultat mathématique par une étude numérique coûteuse et prolongée ... revient à prouver la table de multiplication en disposant les éléphants en rangées et en colonnes, puis en faisant de même pour de nombreux autres types d'animaux. La performance, bien que peut-être divertissante et ayant une certaine valeur pédagogique, n'est pas une contribution importante ni à la zoologie ni aux mathématiques.

[JASA c. 29 # 186, juin 1934, p. 199.]

Secrist semble avoir rapidement disparu de la scène statistique peu de temps après («carrières ruinées», point n ° 2 de la question). Son livre est toujours disponible. (Il y a quelques années, j'ai obtenu une belle copie propre, évidemment peu lue, grâce au prêt entre bibliothèques.) De là, vous pouvez extraire un nombre illimité d'exemples de jeux de données (point n ° 3 de la question).

Steven Stigler raconte cette histoire dans un livre et un article, L'histoire des statistiques en 1933 .

Whuber
la source
4

Il me semble que le point de vue de Wired sur le krach boursier de 2008 pourrait être un exemple instructif. Je ne peux pas dire si ses conclusions sont correctes ou non, mais l'idée d'utiliser des corrélations sur des données qui ne sont pas un échantillon représentatif semble être quelque chose qui pourrait être approprié aux circonstances que vous suggérez. Il est également à jour et pourrait donc les garder intéressés.

John Doucette
la source