Mon équipe et moi aimerions faire une présentation aux non-statisticiens de l'entreprise sur l'utilité de la conception d'expériences. Ces non-statisticiens sont également nos clients et ne nous consultent généralement pas avant de collecter leurs données. Connaissez-vous de véritables exemples qui illustreraient bien la célèbre citation de Fisher "Appeler le statisticien après la fin de l'expérience n'est peut-être rien de plus que lui demander d'effectuer un examen post mortem: il ne pourra peut-être que dire ce que l'expérience est morte. de." ? De préférence, nous recherchons une illustration dans un contexte industriel / pharmaceutique / biologique. Nous pensons à un exemple d'analyse statistique non concluante qui aurait pu réussir si elle avait été bien conçue au préalable, mais il y a peut-être d'autres illustrations possibles.
la source
Réponses:
J'ai rencontré des conceptions où l'expérimentateur voulait tester entre les effets de sujet mais la conception était plus adaptée aux effets de sujet.
Par exemple, une expérience a consisté en 8 rats, quatre sur le régime A et quatre sur le régime B, et le poids du rat a été mesuré chaque jour pendant quatre semaines. C'était bien s'ils étaient intéressés par l'effet temporel de chaque régime, mais l'objectif était d'étudier les différences dans les régimes.
Ils ont pensé qu'en mesurant chaque rat 28 fois, ils avaient beaucoup de données, mais l'unité expérimentale pour l'effet de l'alimentation était le rat, dont ils n'avaient que 4 pour chaque traitement. Ils auraient pu mesurer les rats 10 fois par jour mais cela n'aurait fait aucune différence, à la fin ils avaient besoin de plus de rats.
la source
J'ai travaillé pour une organisation appelée la National Foundation for Celiac Awareness. L'organisation sensibilise le public à la maladie cœliaque et fournit une liste de contrôle des symptômes de la maladie impliquant une intolérance aux aliments contenant du gluten. Ils ont mené une enquête sur Internet en l'ouvrant à toute personne souhaitant participer. Au fil des ans, ils ont recueilli des milliers de réponses du public. Cependant, ils espéraient tirer des conclusions sur le grand public sur la base des résultats de l'enquête. J'ai dû leur dire que les répondants étaient autosélectionnés plutôt qu'aléatoires, ce qui pouvait créer un biais. Comme le degré de biais est inconnu, nous n'avons pu faire aucune déduction malgré la grande quantité de données.
Maintenant, les répondants semblaient être un groupe particulier. Beaucoup sont très sérieux et ont répondu pour exprimer leur inquiétude quant à la possibilité qu’ils ou un parent souffre de la maladie. Mais il y avait aussi un nombre restreint de personnes répondant de manière sage. Cela était évident d'après les faux noms, les adresses électroniques étranges et les adresses postales qu'ils ont fournies avec leurs réponses.
Je pensais que les données n'étaient utiles que dans un sens exploratoire et la fréquence des réponses pourrait être utile pour formuler des hypothèses qui pourraient être testées dans une future enquête bien planifiée. Mais jusqu'à présent, mes conseils n'ont pas été pris en compte et ils exécutent un autre de ces sondages faciles à faire sur Internet.
la source
Il y a quelque temps, on m'a demandé d'analyser les résultats d'une expérience sur la façon dont la position de stockage nocturne d'un panneau solaire photovoltaïque affectait la vitesse à laquelle le sol s'accumulait sur le panneau. (Ces grands panneaux photovoltaïques à concentration suivent le soleil toute la journée, mais la nuit, ils sont généralement stockés pointant vers le haut, car il s'agit de la position de contrainte minimale pour le tracker.) La saleté est un gros problème, car elle réduit considérablement la production d'énergie et le nettoyage n'est pas bon marché. L'expérience avait été menée sur un champ d'environ 120 trackers; la moitié ouest avait été arrimée verticalement et la moitié est horizontalement (ceci aligné avec les connexions du tracker aux deux onduleurs, ce qui donnerait un avantage dans la production d'énergie pendant l'expérience s'il y a un effet significatif et aucun motif particulier de salissure sinon, donc ce n'est pas,
Malheureusement, il y a un fort modèle de vent dominant à travers le désert du sud-sud-ouest, et un grand bâtiment au sud de la partie ouest du champ, "ombrageant" (un peu) une grande partie de la partie ouest du champ à partir de particules soufflées par le vent . De plus, les pisteurs se «protègent» mutuellement du vent dans une certaine mesure. Par conséquent, les mécanismes par lesquels le sol s'accumule (par exemple, soufflé par le vent ou se déposant) varient en ampleur relative à travers le champ. Cela implique à son tour que les réseaux accumulent le sol à des taux différents selon l'emplacement; ce n'est pas un petit effet.
Le résultat final de l'analyse était, pour l'essentiel, qu'il n'était pas invraisemblable que la position de stockage fasse une différence, mais nous ne pouvions en aucun cas exclure la possibilité que l'effet soit trivial, ni déterminer avec une grande confiance (basé sur sur les données) le signe de l'effet. J'ai ensuite conçu une expérience de suivi, attribuant des positions de stockage en fonction de l'emplacement du réseau dans le but de pouvoir estimer la "surface de réponse" de salissure à travers le champ pour les deux positions de stockage, en estimant les taux de salissure "décantation" vs "soufflée par le vent", et bien sûr, l'effet de l'angle de stockage sur les deux. Cette expérience a été assez réussie et nous avons pu obtenir une image claire des avantages de l'arrimage vertical après seulement quelques mois.
la source
Un collègue m'a demandé de `` faire les statistiques '' sur une étude examinant la corrélation entre un certain type d'événement météorologique et les défaillances d'un type d'infrastructure généralement attribuées à une simple usure. Le collègue voulait voir si les événements météorologiques contribuaient réellement à l'échec ou non. Une équipe de personnes avait déjà passé beaucoup de temps et d'efforts à collecter une grande quantité de données et le document de recherche était à peu près terminé, ils avaient juste besoin de quelqu'un pour `` faire les statistiques '' et remplir la dernière partie de la section des résultats.
Le problème était qu'ils avaient soigneusement veillé à ce que l'ensemble de données ne contienne que des périodes «intéressantes» au cours desquelles l'événement météorologique en question s'était produit. Cela signifiait qu'il n'y avait aucun moyen de comparer le taux d'échec pendant les événements avec les temps sans événement. J'ai essayé à plusieurs reprises d'expliquer le problème, mais ils n'ont jamais été vraiment convaincus, car ils avaient simplement tellement de données que je pouvais sûrement en tirer quelque chose.
Heureusement, il y avait encore une gamme de gravité des événements météorologiques et il y avait une faible correspondance entre la gravité et le taux d'échec, donc nous en avons récupéré quelque chose au moins, mais le résultat aurait pu être beaucoup plus définitif s'ils avaient réfléchi à la façon de «faites les statistiques» avant de vous lancer dans l'exercice de collecte de données.
la source