Quels termes statistiques mal utilisés méritent d'être corrigés?

104

La statistique est partout. L’usage courant de termes statistiques est cependant souvent flou.

Les termes probabilité et probabilité sont utilisés de manière interchangeable en anglais profane malgré leurs expressions mathématiques bien définies et différentes.

Ne pas séparer le terme probabilité de probabilité confond systématiquement les médecins qui tentent de quantifier la probabilité de cancer du sein après une mammographie positive: «Oh, quel non-sens. Je ne peux pas faire ça. Tu devrais tester ma fille. elle étudie la médecine. "

L'utilisation de la corrélation au lieu de l' association est également répandue . Ou corrélation impliquant une causalité .

Dans le célèbre documentaire An Inconvenient Truth d' Al Gore , une diapositive illustre la corrélation entre le CO2 et les températures dans les carottes de glace , laissant au travail plus technique le soin de prouver le lien de causalité:

entrez la description de l'image ici

QUESTION: Quels termes statistiques posent des problèmes d’interprétation lorsqu’ils sont utilisés sans rigueur mathématique et méritent donc d’être corrigés?

Antoni Parellada
la source
4
Les chances contre les probabilités parmi les profanes ne semblent pas être un problème pour moi puisque les profanes ne les calculent pas de toute façon, ils se contentent de dire que les valeurs sont basses ou élevées et que les deux sont directement corrélés.
Mehrdad
1
@ Mehrdad je suis d'accord. En fait, c’est là le problème ... existe-t-il une situation dans laquelle un usage abusif de ces mots, qui ont été adoptés et techniques dans le cadre de statistiques, entraîne des problèmes? Par exemple, il est clair qu'il existe un important corpus de recherche sur le changement climatique, mais dans de nombreuses autres circonstances, de fausses déclarations peuvent être faites en suggérant que la corrélation est synonyme de causalité. Dans le cas des probabilités et des probabilités, l’un ou l’autre peut être converti en l’autre, le seul risque est donc de mal comprendre vos paris.
Antoni Parellada
4
@Mehrdad La question des probabilités est intéressante, mais je pense que c'est plus compliqué qu'il n'y paraît. Lorsque les non-initiés parlent de probabilités, ils désignent généralement les probabilités de jeu, qui sont très souvent exprimées sous la forme de "probabilités". Ainsi, dans le système connu de la plupart des gens, une probabilité élevée est associée à une probabilité faible , mais pour un statisticien, une probabilité élevée est associée à une probabilité élevée. Ceci est donc assez mûr pour la confusion: voir aussi notre post sur Odds Made Simple
Silverfish
6
Il est probablement utile de garder à l'esprit que certains de ces termes existaient déjà en anglais (avec un sens vague), avant d'être appropriés par des statistiques et de donner des définitions techniques rigoureuses. C'est un peu condensé de prendre le mot, de changer le sens, puis de blâmer les autres pour l'avoir mal utilisé alors qu'ils l'utilisent avec une définition plus ancienne et non technique.
RM
Je n'aime vraiment pas appeler des tests "post hoc" même lorsqu'ils sont planifiés à l'avance. Je pense que cela a commencé avec un paquet de statistiques, mais il est maintenant omniprésent.
David Lane

Réponses:

101

Il peut être inutile de lutter contre les changements de langage. Mais

paramètre ne signifie pas variable

En statistique classique, qui dans ce cas commence précisément par RA Fisher qui a utilisé le terme avec cette signification pour la première fois, un paramètre est une constante inconnue à estimer, par exemple une moyenne de population ou une corrélation. En mathématiques, il existe des significations liées mais non identiques, comme lorsqu'une courbe est donnée de manière paramétrique. Dans de nombreuses sciences, paramètre est simplement un autre mot pour une mesure (elle-même un terme dense de sens mathématique), propriété ou variable, par exemple longueur, conductivité ou porosité ou vertu, selon le cas. Naturellement, la longueur ou la vertu d'un individu est inconnue avant d'être mesurée. mais les personnes qui ont une conscience statistique peuvent être déroutées par son utilisation pour un ensemble de telles mesures. En langage ordinaire ou vulgaire, paramètres(presque toujours pluriel) signifient souvent les limites de quelque chose, disons une relation personnelle ou une politique politique, résultant peut-être d'une confusion originale avec le périmètre . Avec une forte probabilité préalable, il est à présumer que les Bayésiens parleront pour eux-mêmes selon leurs propres usages (clin d'œil reconnaissant à @conjugateprior).

biaisé ne veut pas dire partial

Depuis un siècle ou plus, l'asymétrie a eu un sens statistique spécifique de se référer à l'asymétrie des distributions, qu'elle soit évaluée graphiquement, mesurée numériquement ou supposée théoriquement comme une affaire de foi ou d'espoir. Pendant bien plus longtemps, on peut le deviner, parti pris signifiait se tromper en moyenne, ce qui - tant que nous connaissons la vérité, signifie une valeur vraie ou correcte - peut être quantifié comme une erreur systématique. Tracé dans le langage ordinaire a le sens commun d’être déformé ou déformé, et donc d’être incorrect, erroné et donc également biaisé. Ce sens (pour autant que je l’ai remarqué, ce n’est que récemment) a commencé à filtrer dans les discussions statistiques, de sorte que la signification initiale de l’asymétrie risque d’être floue ou submergée.

corrélation ne signifie pas accord

y=a+bx11b0y=xa=0,b=1

unique ne signifie pas distinct

Il est assez fréquent de parler des valeurs distinctes de données comme uniques , mais unique , est toujours idéalement mieux préservé en ce sens se produit une seule fois. Je pense que le blâme découle en partie de l'utilitaire Unix [sic] uniqet de ses imitateurs, qui réduisent les valeurs éventuellement répétées à un ensemble dans lequel chaque valeur est vraiment unique. L'utilisation, sur cette hypothèse, confond l'entrée et la sortie d'un programme. (Inversement, si nous parlons de doublons dans les données, nous nous limitons rarement aux doubletons qui se produisent exactement deux fois. Le terme répliqueaurait plus de sens sur le plan linguistique mais a été préempté pour une réplication délibérée des contrôles dans des expériences; les valeurs de réponse obtenues ne sont généralement pas du tout identiques, ce qui est très utile.)

les échantillons sont rarement répétés

En statistique, un échantillon comprend plusieurs valeurs, et l'échantillonnage répété est une grande vertu théorique, mais rarement pratiquée, sauf par simulation, terme couramment utilisé pour désigner n'importe quel type de falsification in silico . Dans de nombreuses sciences, un échantillon est un objet unique, constitué d’une bosse, d’un morceau d’eau, de sol, de sédiment, de roche, de sang, de tissus ou d’autres substances allant d’attirantes à bénignes à dégoûtantes; loin d’être exceptionnel, la prise de nombreux échantillons peut être indispensable à toute analyse sérieuse. Ici, la terminologie de chaque domaine est parfaitement logique pour ses employés, mais une traduction est parfois nécessaire.

erreur ne signifie généralement pas erreur; comme Harold Jeffreys l'a souligné, le sens premier est erratique, pas erroné.

Néanmoins, nous devrions nous méfier de nos propres péchés ou de nos bizarreries de terminologie:

la régression ne va pas en arrière

stationnaire ne signifie pas immobile ou fixe

la confiance n'a rien à voir avec l'état mental ou psychologique de quiconque

la signification n'a que parfois son sens quotidien

exact est souvent un terme honorifique, faisant référence à une solution ou à un calcul facilement traitable plutôt qu’à un calcul approprié au problème

Les distributions asymétriques vers la droite sont souvent très asymétriques vers la gauche, et inversement

le lognormal est appelé ainsi parce que c'est une normale exponentielle

mais le lognormal est plus normal que la normale

le gaussien a été découvert par De Moivre

Poisson n'a pas découvert le Poisson , encore moins la régression de Poisson

le bootstrap ne vous aidera pas avec vos chaussures

le jackknife ne coupe pas

kurtosis n'est pas une condition médicale

les diagrammes de tiges et de feuilles ne font pas référence aux plantes

une variable muette est utile, pas inutile ou stupide

qui sur Terre (ou n'importe où ailleurs) pense que l' hétéroscédasticité est vraiment un terme préférable à une variabilité inégale ?

robust a maintenant au moins deux significations techniques majeures pour différents groupes, aucun des deux n'empêchant son utilisation fréquente, même dans les discussions techniques, de signifier simplement quelque chose comme "s'estime bien se comporter"

IV a maintenant au moins deux significations principales pour différents groupes

facteur a maintenant au moins deux significations principales pour différents groupes

normaliser et normaliser ont d'innombrables significations (nous devons vraiment normaliser là-bas)

par rapport à décrire un graphique signifie variable verticale par rapport à variable horizontale , sauf si cela signifie le contraire

et (last but not least, pour forger une phrase) les statistiques ont au moins trois significations principales.

Remarques:

  1. Malgré les apparences contraires, je pense que la question est bonne et sérieuse.

  2. Les modes changent. Bien avant le XXe siècle, il semble que beaucoup de gens (pas de nom, pas de foret, mais on pourrait citer Karl Pearson) ne pourraient inventer des termes qu'en cherchant leurs dictionnaires grec et latin. (Il serait injuste de ne pas lui attribuer le mérite du nuage de points .) Cependant, RA Fisher a détourné de nombreux mots anglais préexistants, notamment variance , suffisance , efficacité et vraisemblance . Plus récemment, JW Tukey était un expert dans l'utilisation de termes simples, mais peu de gens devraient ressentir de la détresse devant le fait que sploms et badmandments n'aient pas fait leur chemin .

  3. Un commentaire est basé sur le souvenir de "La vie est [...] multiplicative plutôt qu'additive: la distribution log-normale est plus normale que la normale". Anon 1962. Règles de travail de Bloggins. In Good, IJ (Ed.) Le scientifique spécule: une anthologie d’idées mi-cuites. Londres: Heinemann, 212-213 (citation p.213).

Nick Cox
la source
Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .
whuber
L'hétéroscédasticité berce totalement la boîte à chat! "Variabilité inégale?" [Phuagh!]) (+1 très bien sinon;)
Alexis
1
Il peut être intéressant d’ajouter que les tests de régression sont fréquemment utilisés dans le contexte du développement de logiciels, où, globalement, il s’agit de revenir en arrière.
Konrad
@ Konrad Intéressant, mais ensuite (corrigez-moi si je me trompe) (a) cela ne constituerait pas un abus du mot et (b) le mot là-bas n'a pas de sens statistique.
Nick Cox
@ NickCox Correct.
Konrad
33

Certaines des choses que je rencontre:

  1. Traiter le niveau de signification et les probabilités de couverture d'IC ​​comme interchangeables, de sorte que les gens finissent par faire des choses comme parler de «signification à 95%».

    [Ce qui est pire, c’est lorsque les auteurs de telles erreurs font référence à leurs notes de cours - ou même à leur manuel - comme support à cela; en d'autres termes, l'erreur ne leur appartient pas, mais elle est multipliée par cent ou par milliers, et pire, même s'ils le comprennent bien, ils risquent en fait de devoir répéter l'erreur de toute façon pour réussir le sujet.]

  2. Il existe également une tendance commune à penser que "l'importance" existe d'une manière ou d'une autre en dehors d'une hypothèse / question spécifique (conduisant à des questions telles que "mes données sont-elles significatives" sans aucune notion claire de la question à traiter). [Un problème connexe est le "quel test dois-je utiliser pour ces données?" comme si c’était les données - plutôt que la question à laquelle il fallait répondre - c’est le moteur du choix de l’analyse. (Bien que la "conception" de l’étude puisse avoir une incidence sur les tests spécifiques utilisés, la question de l’intérêt est plus importante - par exemple, si vous avez trois groupes disponibles mais que votre question d’intérêt ne concerne que la comparaison de deux d’entre eux, le fait que vous en ayez trois ne vous oblige pas à faire une analyse de type unidirectionnelle plutôt qu'une comparaison directe des deux groupes d'intérêt ... tant que votre choix d'analyse ne découle pas de ce que les données montrent. Dans l’idéal, planifiez vos questions et vos analyses avant de disposer de données, plutôt que de jeter une analyse sur les données et de voir quelles sont les clés de ce qu’il semble être des questions d’analyse post-hoc, notamment «quel test dois-je utiliser pour ces données? - ont tendance à conduire à.)

  3. Une tendance occasionnelle à se référer au complément de la valeur p comme une sorte de "confiance en", ou "probabilité de" l'alternative.

  4. "données non paramétriques"; une autre malheureusement trouvée dans quelques livres (et, malheureusement, dans un article qui prétend corriger une erreur commune), celle-ci est si fréquente qu'elle figure dans ma courte liste de commentaires générés automatiquement (qui commence "Les données ne sont ni paramétriques ni non paramétriques; ce sont des adjectifs qui s'appliquent aux modèles ou aux techniques ... "(merci Nick Cox de m'avoir rappelé ce bugbear en particulier)

    Habituellement, ce sont les "données non normales", mais paramétrique n'implique pas normal, et avoir une normalité approximative n'implique pas nécessairement des procédures paramétriques. De même, la non-normalité n'implique pas que nous ayons besoin de procédures non paramétriques. Il est parfois question de "données ordinales" ou de "données nominales", mais cela ne signifie en aucun cas que les modèles paramétriques finis sont inappropriés.

  5. Une tendance commune à mal interpréter le sens du terme "linéaire" dans le "modèle linéaire" d'une manière qui serait incompatible avec l'utilisation du terme "linéaire" dans le "modèle linéaire généralisé". C'est en partie la faute de notre façon d'utiliser la terminologie.

  6. confondre le type d’asymétrie moyen-moins-médian avec l’asymétrie au troisième moment, et confondre un zéro dans l’un ou l’autre (ou même les deux) avec une symétrie. Ces deux erreurs se retrouvent fréquemment dans des textes de base largement utilisés dans des domaines d'application particuliers. [Il y a une erreur liée à traiter zéro asymétrie et zéro kurtosis en excès comme impliquant la normalité]

  7. celui-ci est si courant qu'il devient de plus en plus difficile de l'appeler une erreur (en partie à cause des efforts d'un programme particulier) - qualifiant simplement l'excès de kurtosis simplement "kurtosis"; une erreur à peu près garanti pour conduire à des problèmes de communication.

Glen_b
la source
2
+1 Je tiens à vous rappeler les "données non paramétriques" grotesques, qui appartiennent mieux à cette liste qu'à la mienne. L'excès de kurtosis est un vilain frère d'un kurtosis brut.
Nick Cox
@Nick Merci, je suis assis ici à regarder ma liste et à me dire "il y a quelque chose d'autre qui m'énerve vraiment que je sais appartenir ici". C'est celui-là.
Glen_b
3
Un autre test, le "test statistique", est tellement étendu qu'il devient la première question: quel test dois-je appliquer à mes données? souvent dans la conviction qu'il n'y aura qu'une seule réponse de la forme "Student's", "Mann-Whitney" ou "chi-square". Ce à quoi ma réponse est plus souvent, peut-être même aucune, ou nous devons examiner attentivement vos données et discuter de votre véritable question avant de pouvoir y penser.
Nick Cox
@ Nick Celui-ci est étroitement lié à mon point 2. Je me demande s'il existe un bon moyen d'élargir celui-ci.
Glen_b
1
Je crains que de nombreux textes statistiques (semblent) encourager une telle réflexion.
Nick Cox
31

" Data " est pluriel . (Le singulier est "datum").

gung - Rétablir Monica
la source
2
Parlez-vous vraiment d'une donnée? Plus généralement, ce point ... cette valeur ..., cette observation ..., du moins dans les environs.
Nick Cox
5
Les données sont également un androïde singulier, qui assimile les données sur les humains qu'il observe pour en arriver à des conclusions basées sur des données, souvent à effet humoristique.
Matthew Drury
2
Il faudrait parcourir un long chemin pour entendre cela.
Nick Cox
5
Les données plurielles exigent non seulement l'accord du verbe - "les données sont" plutôt que "les données sont", mais des quantificateurs - "beaucoup de données" plutôt que "beaucoup de données", "moins de données" plutôt que "moins de données". Si peu de gens parviennent à être cohérents que cela semble être une cause perdue.
Scortchi - Réintégrer Monica
5
Malgré des années (voire des décennies) de lutte contre ce phénomène (mes professeurs de latin seraient ravis), je suis parvenu à une vision similaire à celle de @ Scortchi. Mais j'essaie d'utiliser le mot dataset lorsque cela est possible, influencé en particulier par les pratiques de StataCorp. Cela résout certaines des difficultés.
Nick Cox
14

Bien que ce ne soit pas un terme strictement statistique, je vote en faveur de l'abandon de l' endogénéité . Il est utilisé pour parler de tout, de la causalité inverse à la sélection en passant par la confusion en passant par la confusion, alors que tout ce que les gens veulent vraiment faire, c'est dire: "Cet effet n'est pas identifié".

conjugué
la source
Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .
Glen_b
13

"Régression vers la moyenne" ne signifie pas que si nous observons un certain nombre d'échantillons iid inférieurs à la valeur attendue, les échantillons iid suivants seront probablement supérieurs à la valeur attendue.

Benjamin Lindqvist
la source
3
+1 c'est important. Des personnes remarquables ont été extrêmement confuses par cela. Par exemple, le livre populaire de Peter Bernstein sur l'analyse des risques, Against the Gods . caractérise la régression vers la moyenne de nombreuses façons différentes - aucune d’entre elles n’est correcte.
whuber
10

Points de pourcentage ou de pourcentage : Si quelque chose augmente de 1% à 2%, il augmente de 100%. Ou: vous pouvez dire que cela a augmenté de 1 point de pourcentage.

Affirmer que l’augmentation était de 1% est très trompeur.

Sphadler
la source
7

Je trouve que les abréviations qui ne sont pas clairement indiquées posent un réel problème. Par exemple, je vois des choses comme GLM et rien n’est précisé si cela s’applique à un modèle linéaire général ou à un modèle linéaire généralisé. Une fois, on peut généralement comprendre ce qui est référencé après avoir approfondi le contexte, mais je trouve que cela est particulièrement gênant pour les étudiants qui commencent tout juste à se familiariser avec les modèles statistiques.

Un autre exemple est IV. Cela signifie-t-il une variable instrumentale ou une variable indépendante? Souvent, ce n'est pas précisé tant que vous n'avez pas examiné le contexte.

Il y a autre chose sur lequel je vois une confusion: "modérateur" et "interaction". En outre, la population (comme dans la population en général) et la population d'intérêt semblent confondre les nouveaux étudiants à moins que cela ne soit très clairement expliqué.

StatsStudent
la source
5
J'ai aussi vu que GLM voulait dire «modèles linéaires globaux» par certains dans le groupe d'apprentissage automatique. Juste pour ajouter à la confusion sur un terme déjà surchargé
Glen_b
1
Je soutiens en partie cette réponse / observation. Je pense que "généralisé" (quoi que ce soit) devrait être mieux abrégé en Gz, pas en G. Tel que GzLM (modèle linéaire généralisé).
mardi
2
@ttnphns: certains d' entre nous en écriture généralisée avec un s
Henry
Je suis curieux @ttnphns, quelle partie de cette réponse ne supportez-vous pas et pourquoi? Il est tout à fait possible que je comprenne mal quelque chose. J'aimerais donc en savoir plus si vous avez quelque chose à offrir. Merci!
StatsStudent
1
Euh, je pensais que IV signifiait in vitro. = P
Mehrdad
7

Celui qui est commun dans la langue de tous les jours:

moyenne

Pour la personne moyenne (ironie amère pleinement voulue), la moyenne, la médiane, le mode et la valeur attendue de toute chose semblent être les mêmes. Ils ont une tendance naturelle à faire une estimation ponctuelle, avec l'hypothèse inconsciente et irréfutable qu'il existe une distribution normale sous-jacente. Et l'hypothèse tout aussi inconsciente d'une très petite variance. La conviction selon laquelle une telle estimation 1) et 2) leur sera très utile, car ils peuvent la prendre comme un prédicteur pratiquement certain, est tellement enracinée qu'il est fondamentalement impossible de les convaincre du contraire.

Par exemple, essayez de parler à un cuisinier qui demande "quelle est la pomme de terre de taille moyenne", absolument certain que si vous lui donnez un nombre, il pourra utiliser celui-ci pour toute recette spécifiant un nombre. de pommes de terre, et qu'il soit parfait à chaque fois. Et se fâcher contre vous pour essayer de lui dire "il n'y a pas un tel nombre". Malheureusement, cela se produit dans des situations où l'enjeu est beaucoup plus important que de faire de la soupe.

rumtscho
la source
3
Je pense que c'est un peu exagéré. Par exemple, des millions, voire des milliards de personnes semblent avoir peu de difficulté avec les moyennes sportives.
Nick Cox
1
@ NickCox, cela dépend certainement du contexte. En particulier, le calcul d'une moyenne arithmétique pour des données données ne pose aucun problème. J'ai vu le problème spécifiquement dans les cas que j'ai décrits, où ils ont besoin d'une estimation ponctuelle et supposent que la "moyenne" est très précise. En outre, ils supposent que cette "moyenne" est calculée comme une moyenne, mais si vous leur demandez d'expliquer ce qu'ils entendent par moyenne, ils décrivent grossièrement un mode.
rumtscho
@rumtscho, vous avez raison. Joe Average peut avoir tendance à considérer la moyenne comme étant le mode ou typique.
Mark L. Stone
Quand les gens parlent de prix de l'immobilier «moyens» au Royaume-Uni, ils ne peuvent pas me dire quel type de moyenne ils utilisent ou si les "outsiders" ont été exclus.
Ian Ringrose
1
Rien ne dit que les moyens ne peuvent pas être calculés pour les distributions multimodales, c'est juste que souvent, ce n'est pas la meilleure mesure pour décrire la distribution. De plus, je ne suis pas sûr que l'image des statisticiens fasse de belles choses à tout le monde: "Vous ne savez pas ce que signifie le mot" moyenne "! et puis quand ils pointent vers une définition de dictionnaire, nous répondons "Eh bien, le dictionnaire non plus!"
Cliff AB
7

Kurtosis ne mesure pas le «pic».

Z4|Z||Z|

* Soustrayez 3 ou pas; cela ne fait aucune différence sur ce point.

Peter Westfall
la source
1
ZZ
1
J'ai eu un professeur de statistiques chypriote-grecque, qui nous a appris que leptokurtic, en grec, signifie "épaules étroites" ou "bossues". Ainsi, une distribution leptokurtique (par exemple, une Laplace ou une double exponentielle) a moins de masse que la gaussienne (de variance égale) dans ses zones "d'épaule" - et par conséquent plus de masse dans les régions de la tête et de la queue. Inversement, une distribution platykurtic (par exemple, l'uniforme) a plus de masse dans les épaules et moins dans la région de la tête et de la queue que la normale.
Mico
2
Bonne explication des mots, mais en réalité ils n’ont rien à voir avec la statistique de kurtosis développée par Pearson. Pearson a eu tort, mais en utilisant ces mots grecs au son de fantaisie, il a fait croire aux autres qu'il était sur quelque chose de profond. Son erreur a malheureusement nui à l'éducation statistique et à l'alphabétisation pendant plus de 100 ans. Voir mon article pour les distributions pointy ("lepto") où le kurtosis est petit et les distributions à sommet plat ("platy") où le kurtosis est proche de l'infini. Le kurtosis de Pearson ne vous dit rien sur "lepto" ou "platy". ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall
5

Linéaire signifie:

  • y=a+bxy=a+bx+cx2y=axb

  • y=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

yxa,b,c,dθ

Alexis
la source
5

La question portait sur l’utilisation de termes statistiques que CARE devrait corriger. Cela fait 10 ans que je corrige l'utilisation du terme «aléatoire» par mes enfants du millénaire pour désigner des choses qui sont à l'opposé du hasard. Compte tenu du nombre de mes stagiaires qui luttent pour produire un échantillon de données aléatoire qui est réellement aléatoire, ce qui s'est passé même avant cette utilisation du mot, l'obscurcissement de ce terme dans l'argot quotidien est une crise.

Du OnlineSlangDictionary:

Definition of random


random

adjective
  • inattendu et surprenant.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • étonnamment génial.
    The party was totally random.
    
SASmom
la source
4

Il y a déjà trop d'excellents exemples mentionnés par Glen et Nick ... il n'en reste plus beaucoup!

Quelques aspects de la régression

  • terme d'erreur et résiduel (c'est un peu drôle quand les gens sont fiers que leurs résidus ne sont pas corrélés avec les régresseurs)

  • prévision et estimation (devrions-nous même cesser de faire la distinction quand il s'agit des effets aléatoires prévus?)

  • prévision / intervalle de prévision par rapport à l'intervalle de confiance. Je pense qu'il y a une probabilité> 0,5 de citer le mauvais.

  • régresseur (colonne dans la matrice de conception) versus covariable et al. Surtout dans les situations techniques où la distinction est essentielle, beaucoup de gens (y compris moi-même) ont tendance à être imprécis.

Michael M
la source
Désolé je suis confus. Existe-t-il une différence entre prédiction et estimation? Pourriez-vous expliquer davantage vos deux derniers points? Merci!
Yuqian
3

Dans les environnements d'assurance en particulier, il est courant d'utiliser la variance pour désigner toute sorte de différence, plutôt que la moyenne des différences au carré entre chaque point de données et la moyenne de l'ensemble de données.

clarinettiste
la source
6
J'ai moi aussi rencontré la variance utilisée dans ce sens différent, mais notez que la variance était un mot anglais existant lorsque RA Fisher l'a détourné à cette fin en 1918. Il s'agit donc d'un usage différent; les statistiques ne peuvent pas revendiquer la propriété du vrai sens.
Nick Cox
3

Bayésien

Les étudiants qui l’apprennent n’auront peut-être pas du mal à vous dire si quelque chose "a l'air" bayésien, mais demandez-leur de résoudre un problème avec une approche fréquentiste et bayésienne et ils échoueront probablement.

D'après mon expérience, les élèves finissent par apprendre qu'il ne s'agit que d'une différence philosophique, aucun exemple concret ne montrant que le même problème est abordé avec les deux approches.

Maintenant, demandez-leur pourquoi quelqu'un pourrait adopter une approche fréquentiste dans leur exemple; les chances sont que leur meilleure explication serait quelque chose comme "bon, à l'époque, les ordinateurs n'existaient pas ..."

Mehrdad
la source
Pouvez-vous partager votre explication sur le fait que quelqu'un pourrait adopter une approche fréquentiste? Merci!
Yuqian
4
@yuqian: Ouais. Pour moi, l’important est que vous le fassiez lorsque vous voulez que les gens soient objectivement d’accord avec vous. Les approches bayésiennes nécessitent des distributions préalables, qui sont intrinsèquement subjectives, et dans les problèmes du monde réel, il n’existe pas de précédent unique objectivement correct… ce qui signifie que deux personnes peuvent calculer différentes réponses au même problème en fonction de ce qu’elles pensent que leurs prieurs devraient être. Avec une approche fréquentiste, il n’ya pas d’ambiguïté semblable, ce qui permet de comparer vos résultats avec ceux d’autres personnes de manière objective.
Mehrdad
2

Risque

Risque ne signifie pas probabilité

Le risque est la somme des coûts de tous les résultats, chacun de ces coûts multiplié par la probabilité qu’ils se produisent.

Le risque est généralement mis en balance avec la récompense qui est le gain que nous cherchons à réaliser.

Voici un exemple: Votre kilowatt est-il mortel ? Ici, les risques - nombre de personnes décédées pour différentes sources d'énergie - sont mis en balance avec la récompense - térawattheures d'énergie produite par ces sources d'énergie.

Ainsi, par exemple: le risque d’énergie nucléaire n’est pas la probabilité d’ une fusion; c'est la probabilité qu'une fusion se produise, multipliée par le nombre de personnes qui en meurent, additionnée au nombre de personnes décédées des opérations normales, multipliée par la probabilité que les opérations restent normales.

Michael Karnerfors
la source
4
"Risque" n'a pas de définition standard universellement acceptée. Mais, "la somme des coûts [pertes] de tous les résultats, chacun de ces coûts [pertes] multiplié par la probabilité qu'ils se produisent" est la définition du coût attendu [perte]. Le risque, en revanche, fait généralement référence aux écarts (défavorables) par rapport à la perte attendue. Votre définition est donc l'attente, alors que je pense que les définitions typiques du risque traitent de la dispersion.
A. Webb
Par exemple, lorsque nous achetons une assurance, le but est de réduire le risque (réduire l’impact d’événements improbables), mais les coûts réels attendus sont plus élevés pour l’assuré, la différence étant les frais et les bénéfices de l’assureur. Les pertes extrêmes dans la queue ont été échangées pour un coût de la prime plus stable.
A. Webb
3
@ A.Webb FWIW, la société (internationale) d’analyse des risques, définit le risque comme "Le potentiel de réalisation de conséquences néfastes et indésirables pour la vie, la santé, les biens ou l’environnement; l’estimation du risque est généralement basée sur la valeur escomptée de la probabilité conditionnelle que l'événement se produise est la conséquence de l'événement, étant donné qu'il s'est produit. " Ainsi, le risque semble avoir une définition standard - et cela montre que vous avez raison de distinguer le risque de la manière dont il pourrait être estimé ou mesuré.
whuber
1
P(A)/t
2

Les effets fixes et les effets aléatoires peuvent signifier différentes choses pour différentes personnes. En économétrie, les effets fixes sont en réalité aléatoires et, lorsque vous y réfléchissez, tous les effets dans les statistiques sont aléatoires, de sorte que nommer quelque chose au hasard ne donne aucune information supplémentaire significative.

mpiktas
la source