Je ne sais pas à quoi appartient cette question: Cross Validated ou The Workplace. Mais ma question est vaguement liée aux statistiques.
Cette question (ou je suppose que des questions) a surgi pendant mon travail en tant que "stagiaire en science des données". Je construisais ce modèle de régression linéaire et examinais le tracé résiduel. J'ai vu un signe clair d'hétéroskédasticité. Je me souviens que l'hétéroscédasticité déforme de nombreuses statistiques de test telles que l'intervalle de confiance et le test t. J'ai donc utilisé le moins carré pondéré, en suivant ce que j'ai appris à l'université. Mon manager l'a vu et m'a conseillé de ne pas le faire car "je compliquais les choses", ce qui n'était pas du tout une raison très convaincante pour moi.
Un autre exemple serait de "supprimer une variable explicative car sa valeur de p est insignifiante". Pour être, ce conseil n'a tout simplement pas de sens d'un point de vue logique. D'après ce que j'ai appris, une valeur de p insignifiante pourrait être due à différentes raisons: hasard, utilisation du mauvais modèle, violation des hypothèses, etc.
Un autre exemple encore est que j'ai utilisé la validation croisée k-fold pour évaluer mon modèle. D'après le résultat, est bien meilleur que C V m o d e l 2 . Mais nous avons un R 2 inférieur pour le modèle 1, et la raison a quelque chose à voir avec l'interception . Mon superviseur, cependant, semble préférer le modèle 2 car il a un R 2 plus élevé . Ses raisons (telles que est robuste, ou la validation croisée est une approche d'apprentissage automatique, pas une approche statistique) ne semble tout simplement pas suffisamment convaincante pour changer d'avis.
En tant que quelqu'un qui vient de terminer ses études collégiales, je suis très confus. Je suis très passionné par l'application de statistiques correctes pour résoudre des problèmes du monde réel, mais je ne sais pas lequel des énoncés suivants est vrai:
- Les statistiques que j'ai apprises par moi-même sont fausses, donc je fais juste des erreurs.
- Il existe une énorme différence entre les statistiques théoriques et les modèles de construction dans les entreprises. Et bien que la théorie statistique soit juste, les gens ne la suivent tout simplement pas.
- Le gestionnaire n'utilise pas correctement les statistiques.
Mise à jour du 17/04/2017: J'ai décidé de poursuivre un doctorat. en statistiques. Merci à tous pour votre réponse.
Réponses:
Je pense que la seule chose à faire, face à ce genre de situation, est d'expliquer soigneusement ce qui ne va pas dans la pratique mal dirigée, avec un exemple ou deux.
la source
Le kodiologue a raison - vous avez raison, il a tort. Malheureusement, c'est un problème de lieu encore plus courant que ce que vous rencontrez. Vous êtes en fait dans une industrie qui se porte relativement bien.
Maintenant, à part le fait que cet intervalle de confiance ne leur dit pas ce dont ils ont réellement besoin (ils ont besoin d'un intervalle de tolérance pour cela), cela se fait à l'aveuglette sur des paramètres qui planent près d'une valeur maximale ou minimale (mais où l'intervalle a gagné '' t dépassent en fait ces valeurs). Parce qu'Excel calculera ce dont ils ont besoin (oui, j'ai dit Excel), ils définissent leurs spécifications en fonction de cela, malgré le fait que le paramètre ne sera pas proche de la distribution normale. Ces personnes ont appris les statistiques de base, mais pas les parcelles qq ou similaires. L'un des plus gros problèmes est que les statistiques vous donneront un chiffre, même lorsqu'elles sont utilisées de manière inappropriée - de sorte que la plupart des gens ne savent pas quand ils l'ont fait.
En d'autres termes, les spécifications de la grande majorité des produits, dans la grande majorité des industries, sont absurdes.
L'un des pires exemples que j'ai de personnes qui suivent aveuglément des statistiques, sans comprendre, est l'utilisation de Cpk dans l'industrie automobile. Une entreprise a passé environ un an à discuter d'un produit avec son fournisseur, car elle pensait que le fournisseur pouvait contrôler son produit à un niveau qui n'était tout simplement pas possible. Ils ne fixaient qu'une spécification maximale (pas de minimum) sur un paramètre et utilisaient Cpk pour justifier leur affirmation - jusqu'à ce qu'il soit souligné que leurs calculs (lorsqu'ils étaient utilisés pour définir un niveau minimum théorique - ils ne voulaient pas que cela ne les ait pas vérifiés) ) impliquait une valeur négative massive. Ceci, sur un paramètre qui ne pourrait jamais être inférieur à 0. Cpk suppose normal, le processus n'a pas donné de données proches de la normale. Il a fallu beaucoup de temps pour que cela pénètre. Tout ce gaspillage de temps et d'argent parce que les gens ne t comprendre ce qu'ils calculaient - et cela aurait pu être bien pire s'il n'avait pas été remarqué. Cela pourrait être un facteur expliquant pourquoi il y a des rappels réguliers dans l'industrie automobile!
Je suis moi-même issu d'un milieu scientifique et, franchement, l'enseignement des statistiques en sciences et en génie est scandaleusement insuffisant. Je n'avais jamais entendu parler de la plupart de ce que je dois utiliser maintenant - tout a été autodidacte et il y a (par rapport à un statisticien approprié) d'énormes lacunes dans mes connaissances, même maintenant. Pour cette raison, je ne regrette pas les gens qui abusent des statistiques (je le fais probablement encore régulièrement), c'est une mauvaise éducation.
Donc, pour revenir à votre question initiale, ce n'est vraiment pas facile. Je suis d'accord avec la recommandation de Kodiologist d'essayer d'expliquer doucement ces choses afin que les bonnes statistiques soient utilisées. Mais , je voudrais ajouter une mise en garde supplémentaire à cela et vous conseiller également de choisir vos batailles judicieusement, pour le bien de votre carrière.
C'est malheureux, mais c'est un fait que vous ne pourrez pas obliger tout le monde à faire les meilleures statistiques à chaque fois. Choisissez de les corriger lorsque cela compte vraiment jusqu'à la conclusion générale finale (ce qui signifie parfois faire les choses de deux manières différentes pour vérifier). Il y a des moments (par exemple votre exemple de modèle 1,2) où l'utilisation de la «mauvaise» manière peut conduire aux mêmes conclusions. Évitez de corriger trop de gens trop fréquemment.
Je sais que c'est frustrant intellectuellement et que le monde devrait fonctionner différemment - malheureusement ce n'est pas le cas. Dans une certaine mesure, vous devrez apprendre à juger vos combats en fonction de la personnalité individuelle de vos collègues. Votre objectif (professionnel) est d'être l'expert auquel ils s'adressent lorsqu'ils ont vraiment besoin d'aide, pas la personne difficile qui essaie toujours de les corriger. Et, en fait, si vous devenez cette personne, c'est probablement là que vous aurez le plus de succès à amener les gens à écouter et à faire les choses de la bonne façon. Bonne chance.
la source
Ce qui est décrit apparaît comme une expérience quelque peu mauvaise. Néanmoins, ce ne devrait pas être quelque chose qui amène à remettre en question immédiatement leur propre formation ou le jugement statistique de leur superviseur / gestionnaire.
Oui, très, très probablement, vous avez raison de suggérer d'utiliser CV au lieu deR2 pour la sélection de modèle par exemple. Mais vous devez trouver pourquoi cette méthodologie (potentiellement douteuse) a vu le jour, voir comment cela nuit à l'entreprise et proposer des solutions à cette douleur. Personne ne veut utiliser consciemment une mauvaise méthodologie, à moins que ce ne soit une raison pour le faire. Dire que quelque chose ne va pas (ce qui pourrait très bien être le cas) et ne pas montrer comment l'erreur affecte votre réellele travail, plutôt que le comportement asymptotique quelque part dans le futur, ne signifie pas grand-chose. Les gens hésiteront à l'accepter; pourquoi dépenser de l'énergie pour changer quand tout fonctionne (quelque peu)? Votre manager n'a pas nécessairement tort du point de vue commercial. Il est responsable des statistiques ainsi que des décisions d'affaires de votre département; ces décisions ne coïncident pas nécessairement toujours et ne coïncident probablement pas avec les livrables à court terme (les contraintes de temps sont un facteur très important dans l'analyse des données de l'industrie).
Je vous conseille de vous en tenir à vos pistolets (statistiques) mais d'être ouvert à ce que font les gens, d'être patient avec les personnes qui pourraient être détachées des nouvelles pratiques statistiques et d'offrir des conseils / opinions sur demande , de développer une peau plus épaisse et d'apprendre de votre environnement. Si vous faites les bonnes choses, cela se montrera lentement, les gens voudront votre avis car ils reconnaîtront que vous pouvez offrir des solutions là où leur flux de travail actuel ne fonctionne pas. Enfin, oui, bien sûr, si après un laps de temps raisonnable (quelques mois au moins) vous sentez que vous êtes dévalué et irrespectueux, continuez.
Il va sans dire que maintenant vous êtes dans l'industrie, vous ne pouvez pas vous asseoir et penser que vous n'avez pas besoin de perfectionner votre formation en statistique. La modélisation prédictive, les stratégies de régression, les algorithmes de clustering continuent d'évoluer. Par exemple, l'utilisation de la régression des processus gaussiens dans un environnement industriel était proche de la science-fiction il y a 10 ans; maintenant, il peut être vu presque comme une chose standard à essayer.
la source