La statistique est partout. L’usage courant de termes statistiques est cependant souvent flou.
Les termes probabilité et probabilité sont utilisés de manière interchangeable en anglais profane malgré leurs expressions mathématiques bien définies et différentes.
Ne pas séparer le terme probabilité de probabilité confond systématiquement les médecins qui tentent de quantifier la probabilité de cancer du sein après une mammographie positive: «Oh, quel non-sens. Je ne peux pas faire ça. Tu devrais tester ma fille. elle étudie la médecine. "
L'utilisation de la corrélation au lieu de l' association est également répandue . Ou corrélation impliquant une causalité .
Dans le célèbre documentaire An Inconvenient Truth d' Al Gore , une diapositive illustre la corrélation entre le et les températures dans les carottes de glace , laissant au travail plus technique le soin de prouver le lien de causalité:
QUESTION: Quels termes statistiques posent des problèmes d’interprétation lorsqu’ils sont utilisés sans rigueur mathématique et méritent donc d’être corrigés?
la source
Réponses:
Il peut être inutile de lutter contre les changements de langage. Mais
paramètre ne signifie pas variable
En statistique classique, qui dans ce cas commence précisément par RA Fisher qui a utilisé le terme avec cette signification pour la première fois, un paramètre est une constante inconnue à estimer, par exemple une moyenne de population ou une corrélation. En mathématiques, il existe des significations liées mais non identiques, comme lorsqu'une courbe est donnée de manière paramétrique. Dans de nombreuses sciences, paramètre est simplement un autre mot pour une mesure (elle-même un terme dense de sens mathématique), propriété ou variable, par exemple longueur, conductivité ou porosité ou vertu, selon le cas. Naturellement, la longueur ou la vertu d'un individu est inconnue avant d'être mesurée. mais les personnes qui ont une conscience statistique peuvent être déroutées par son utilisation pour un ensemble de telles mesures. En langage ordinaire ou vulgaire, paramètres(presque toujours pluriel) signifient souvent les limites de quelque chose, disons une relation personnelle ou une politique politique, résultant peut-être d'une confusion originale avec le périmètre . Avec une forte probabilité préalable, il est à présumer que les Bayésiens parleront pour eux-mêmes selon leurs propres usages (clin d'œil reconnaissant à @conjugateprior).
biaisé ne veut pas dire partial
Depuis un siècle ou plus, l'asymétrie a eu un sens statistique spécifique de se référer à l'asymétrie des distributions, qu'elle soit évaluée graphiquement, mesurée numériquement ou supposée théoriquement comme une affaire de foi ou d'espoir. Pendant bien plus longtemps, on peut le deviner, parti pris signifiait se tromper en moyenne, ce qui - tant que nous connaissons la vérité, signifie une valeur vraie ou correcte - peut être quantifié comme une erreur systématique. Tracé dans le langage ordinaire a le sens commun d’être déformé ou déformé, et donc d’être incorrect, erroné et donc également biaisé. Ce sens (pour autant que je l’ai remarqué, ce n’est que récemment) a commencé à filtrer dans les discussions statistiques, de sorte que la signification initiale de l’asymétrie risque d’être floue ou submergée.
corrélation ne signifie pas accord
unique ne signifie pas distinct
Il est assez fréquent de parler des valeurs distinctes de données comme uniques , mais unique , est toujours idéalement mieux préservé en ce sens se produit une seule fois. Je pense que le blâme découle en partie de l'utilitaire Unix [sic]
uniq
et de ses imitateurs, qui réduisent les valeurs éventuellement répétées à un ensemble dans lequel chaque valeur est vraiment unique. L'utilisation, sur cette hypothèse, confond l'entrée et la sortie d'un programme. (Inversement, si nous parlons de doublons dans les données, nous nous limitons rarement aux doubletons qui se produisent exactement deux fois. Le terme répliqueaurait plus de sens sur le plan linguistique mais a été préempté pour une réplication délibérée des contrôles dans des expériences; les valeurs de réponse obtenues ne sont généralement pas du tout identiques, ce qui est très utile.)les échantillons sont rarement répétés
En statistique, un échantillon comprend plusieurs valeurs, et l'échantillonnage répété est une grande vertu théorique, mais rarement pratiquée, sauf par simulation, terme couramment utilisé pour désigner n'importe quel type de falsification in silico . Dans de nombreuses sciences, un échantillon est un objet unique, constitué d’une bosse, d’un morceau d’eau, de sol, de sédiment, de roche, de sang, de tissus ou d’autres substances allant d’attirantes à bénignes à dégoûtantes; loin d’être exceptionnel, la prise de nombreux échantillons peut être indispensable à toute analyse sérieuse. Ici, la terminologie de chaque domaine est parfaitement logique pour ses employés, mais une traduction est parfois nécessaire.
erreur ne signifie généralement pas erreur; comme Harold Jeffreys l'a souligné, le sens premier est erratique, pas erroné.
Néanmoins, nous devrions nous méfier de nos propres péchés ou de nos bizarreries de terminologie:
la régression ne va pas en arrière
stationnaire ne signifie pas immobile ou fixe
la confiance n'a rien à voir avec l'état mental ou psychologique de quiconque
la signification n'a que parfois son sens quotidien
exact est souvent un terme honorifique, faisant référence à une solution ou à un calcul facilement traitable plutôt qu’à un calcul approprié au problème
Les distributions asymétriques vers la droite sont souvent très asymétriques vers la gauche, et inversement
le lognormal est appelé ainsi parce que c'est une normale exponentielle
mais le lognormal est plus normal que la normale
le gaussien a été découvert par De Moivre
Poisson n'a pas découvert le Poisson , encore moins la régression de Poisson
le bootstrap ne vous aidera pas avec vos chaussures
le jackknife ne coupe pas
kurtosis n'est pas une condition médicale
les diagrammes de tiges et de feuilles ne font pas référence aux plantes
une variable muette est utile, pas inutile ou stupide
qui sur Terre (ou n'importe où ailleurs) pense que l' hétéroscédasticité est vraiment un terme préférable à une variabilité inégale ?
robust a maintenant au moins deux significations techniques majeures pour différents groupes, aucun des deux n'empêchant son utilisation fréquente, même dans les discussions techniques, de signifier simplement quelque chose comme "s'estime bien se comporter"
IV a maintenant au moins deux significations principales pour différents groupes
facteur a maintenant au moins deux significations principales pour différents groupes
normaliser et normaliser ont d'innombrables significations (nous devons vraiment normaliser là-bas)
par rapport à décrire un graphique signifie variable verticale par rapport à variable horizontale , sauf si cela signifie le contraire
et (last but not least, pour forger une phrase) les statistiques ont au moins trois significations principales.
Remarques:
Malgré les apparences contraires, je pense que la question est bonne et sérieuse.
Les modes changent. Bien avant le XXe siècle, il semble que beaucoup de gens (pas de nom, pas de foret, mais on pourrait citer Karl Pearson) ne pourraient inventer des termes qu'en cherchant leurs dictionnaires grec et latin. (Il serait injuste de ne pas lui attribuer le mérite du nuage de points .) Cependant, RA Fisher a détourné de nombreux mots anglais préexistants, notamment variance , suffisance , efficacité et vraisemblance . Plus récemment, JW Tukey était un expert dans l'utilisation de termes simples, mais peu de gens devraient ressentir de la détresse devant le fait que sploms et badmandments n'aient pas fait leur chemin .
Un commentaire est basé sur le souvenir de "La vie est [...] multiplicative plutôt qu'additive: la distribution log-normale est plus normale que la normale". Anon 1962. Règles de travail de Bloggins. In Good, IJ (Ed.) Le scientifique spécule: une anthologie d’idées mi-cuites. Londres: Heinemann, 212-213 (citation p.213).
la source
Certaines des choses que je rencontre:
Traiter le niveau de signification et les probabilités de couverture d'IC comme interchangeables, de sorte que les gens finissent par faire des choses comme parler de «signification à 95%».
[Ce qui est pire, c’est lorsque les auteurs de telles erreurs font référence à leurs notes de cours - ou même à leur manuel - comme support à cela; en d'autres termes, l'erreur ne leur appartient pas, mais elle est multipliée par cent ou par milliers, et pire, même s'ils le comprennent bien, ils risquent en fait de devoir répéter l'erreur de toute façon pour réussir le sujet.]
Il existe également une tendance commune à penser que "l'importance" existe d'une manière ou d'une autre en dehors d'une hypothèse / question spécifique (conduisant à des questions telles que "mes données sont-elles significatives" sans aucune notion claire de la question à traiter). [Un problème connexe est le "quel test dois-je utiliser pour ces données?" comme si c’était les données - plutôt que la question à laquelle il fallait répondre - c’est le moteur du choix de l’analyse. (Bien que la "conception" de l’étude puisse avoir une incidence sur les tests spécifiques utilisés, la question de l’intérêt est plus importante - par exemple, si vous avez trois groupes disponibles mais que votre question d’intérêt ne concerne que la comparaison de deux d’entre eux, le fait que vous en ayez trois ne vous oblige pas à faire une analyse de type unidirectionnelle plutôt qu'une comparaison directe des deux groupes d'intérêt ... tant que votre choix d'analyse ne découle pas de ce que les données montrent. Dans l’idéal, planifiez vos questions et vos analyses avant de disposer de données, plutôt que de jeter une analyse sur les données et de voir quelles sont les clés de ce qu’il semble être des questions d’analyse post-hoc, notamment «quel test dois-je utiliser pour ces données? - ont tendance à conduire à.)
Une tendance occasionnelle à se référer au complément de la valeur p comme une sorte de "confiance en", ou "probabilité de" l'alternative.
"données non paramétriques"; une autre malheureusement trouvée dans quelques livres (et, malheureusement, dans un article qui prétend corriger une erreur commune), celle-ci est si fréquente qu'elle figure dans ma courte liste de commentaires générés automatiquement (qui commence "Les données ne sont ni paramétriques ni non paramétriques; ce sont des adjectifs qui s'appliquent aux modèles ou aux techniques ... "(merci Nick Cox de m'avoir rappelé ce bugbear en particulier)
Habituellement, ce sont les "données non normales", mais paramétrique n'implique pas normal, et avoir une normalité approximative n'implique pas nécessairement des procédures paramétriques. De même, la non-normalité n'implique pas que nous ayons besoin de procédures non paramétriques. Il est parfois question de "données ordinales" ou de "données nominales", mais cela ne signifie en aucun cas que les modèles paramétriques finis sont inappropriés.
Une tendance commune à mal interpréter le sens du terme "linéaire" dans le "modèle linéaire" d'une manière qui serait incompatible avec l'utilisation du terme "linéaire" dans le "modèle linéaire généralisé". C'est en partie la faute de notre façon d'utiliser la terminologie.
confondre le type d’asymétrie moyen-moins-médian avec l’asymétrie au troisième moment, et confondre un zéro dans l’un ou l’autre (ou même les deux) avec une symétrie. Ces deux erreurs se retrouvent fréquemment dans des textes de base largement utilisés dans des domaines d'application particuliers. [Il y a une erreur liée à traiter zéro asymétrie et zéro kurtosis en excès comme impliquant la normalité]
celui-ci est si courant qu'il devient de plus en plus difficile de l'appeler une erreur (en partie à cause des efforts d'un programme particulier) - qualifiant simplement l'excès de kurtosis simplement "kurtosis"; une erreur à peu près garanti pour conduire à des problèmes de communication.
la source
" Data " est pluriel . (Le singulier est "datum").
la source
Bien que ce ne soit pas un terme strictement statistique, je vote en faveur de l'abandon de l' endogénéité . Il est utilisé pour parler de tout, de la causalité inverse à la sélection en passant par la confusion en passant par la confusion, alors que tout ce que les gens veulent vraiment faire, c'est dire: "Cet effet n'est pas identifié".
la source
"Régression vers la moyenne" ne signifie pas que si nous observons un certain nombre d'échantillons iid inférieurs à la valeur attendue, les échantillons iid suivants seront probablement supérieurs à la valeur attendue.
la source
Points de pourcentage ou de pourcentage : Si quelque chose augmente de 1% à 2%, il augmente de 100%. Ou: vous pouvez dire que cela a augmenté de 1 point de pourcentage.
Affirmer que l’augmentation était de 1% est très trompeur.
la source
Je trouve que les abréviations qui ne sont pas clairement indiquées posent un réel problème. Par exemple, je vois des choses comme GLM et rien n’est précisé si cela s’applique à un modèle linéaire général ou à un modèle linéaire généralisé. Une fois, on peut généralement comprendre ce qui est référencé après avoir approfondi le contexte, mais je trouve que cela est particulièrement gênant pour les étudiants qui commencent tout juste à se familiariser avec les modèles statistiques.
Un autre exemple est IV. Cela signifie-t-il une variable instrumentale ou une variable indépendante? Souvent, ce n'est pas précisé tant que vous n'avez pas examiné le contexte.
Il y a autre chose sur lequel je vois une confusion: "modérateur" et "interaction". En outre, la population (comme dans la population en général) et la population d'intérêt semblent confondre les nouveaux étudiants à moins que cela ne soit très clairement expliqué.
la source
Celui qui est commun dans la langue de tous les jours:
moyenne
Pour la personne moyenne (ironie amère pleinement voulue), la moyenne, la médiane, le mode et la valeur attendue de toute chose semblent être les mêmes. Ils ont une tendance naturelle à faire une estimation ponctuelle, avec l'hypothèse inconsciente et irréfutable qu'il existe une distribution normale sous-jacente. Et l'hypothèse tout aussi inconsciente d'une très petite variance. La conviction selon laquelle une telle estimation 1) et 2) leur sera très utile, car ils peuvent la prendre comme un prédicteur pratiquement certain, est tellement enracinée qu'il est fondamentalement impossible de les convaincre du contraire.
Par exemple, essayez de parler à un cuisinier qui demande "quelle est la pomme de terre de taille moyenne", absolument certain que si vous lui donnez un nombre, il pourra utiliser celui-ci pour toute recette spécifiant un nombre. de pommes de terre, et qu'il soit parfait à chaque fois. Et se fâcher contre vous pour essayer de lui dire "il n'y a pas un tel nombre". Malheureusement, cela se produit dans des situations où l'enjeu est beaucoup plus important que de faire de la soupe.
la source
Kurtosis ne mesure pas le «pic».
* Soustrayez 3 ou pas; cela ne fait aucune différence sur ce point.
la source
Linéaire signifie:
la source
La question portait sur l’utilisation de termes statistiques que CARE devrait corriger. Cela fait 10 ans que je corrige l'utilisation du terme «aléatoire» par mes enfants du millénaire pour désigner des choses qui sont à l'opposé du hasard. Compte tenu du nombre de mes stagiaires qui luttent pour produire un échantillon de données aléatoire qui est réellement aléatoire, ce qui s'est passé même avant cette utilisation du mot, l'obscurcissement de ce terme dans l'argot quotidien est une crise.
Du OnlineSlangDictionary:
la source
Il y a déjà trop d'excellents exemples mentionnés par Glen et Nick ... il n'en reste plus beaucoup!
Quelques aspects de la régression
terme d'erreur et résiduel (c'est un peu drôle quand les gens sont fiers que leurs résidus ne sont pas corrélés avec les régresseurs)
prévision et estimation (devrions-nous même cesser de faire la distinction quand il s'agit des effets aléatoires prévus?)
prévision / intervalle de prévision par rapport à l'intervalle de confiance. Je pense qu'il y a une probabilité> 0,5 de citer le mauvais.
régresseur (colonne dans la matrice de conception) versus covariable et al. Surtout dans les situations techniques où la distinction est essentielle, beaucoup de gens (y compris moi-même) ont tendance à être imprécis.
la source
Dans les environnements d'assurance en particulier, il est courant d'utiliser la variance pour désigner toute sorte de différence, plutôt que la moyenne des différences au carré entre chaque point de données et la moyenne de l'ensemble de données.
la source
Bayésien
Les étudiants qui l’apprennent n’auront peut-être pas du mal à vous dire si quelque chose "a l'air" bayésien, mais demandez-leur de résoudre un problème avec une approche fréquentiste et bayésienne et ils échoueront probablement.
D'après mon expérience, les élèves finissent par apprendre qu'il ne s'agit que d'une différence philosophique, aucun exemple concret ne montrant que le même problème est abordé avec les deux approches.
Maintenant, demandez-leur pourquoi quelqu'un pourrait adopter une approche fréquentiste dans leur exemple; les chances sont que leur meilleure explication serait quelque chose comme "bon, à l'époque, les ordinateurs n'existaient pas ..."
la source
Risque
Risque ne signifie pas probabilité
Le risque est la somme des coûts de tous les résultats, chacun de ces coûts multiplié par la probabilité qu’ils se produisent.
Le risque est généralement mis en balance avec la récompense qui est le gain que nous cherchons à réaliser.
Voici un exemple: Votre kilowatt est-il mortel ? Ici, les risques - nombre de personnes décédées pour différentes sources d'énergie - sont mis en balance avec la récompense - térawattheures d'énergie produite par ces sources d'énergie.
Ainsi, par exemple: le risque d’énergie nucléaire n’est pas la probabilité d’ une fusion; c'est la probabilité qu'une fusion se produise, multipliée par le nombre de personnes qui en meurent, additionnée au nombre de personnes décédées des opérations normales, multipliée par la probabilité que les opérations restent normales.
la source
Les effets fixes et les effets aléatoires peuvent signifier différentes choses pour différentes personnes. En économétrie, les effets fixes sont en réalité aléatoires et, lorsque vous y réfléchissez, tous les effets dans les statistiques sont aléatoires, de sorte que nommer quelque chose au hasard ne donne aucune information supplémentaire significative.
la source