Termes statistiques les plus déroutants

47

En tant que statisticiens, nous utilisons beaucoup de mots de manière légèrement différente de celle utilisée par tout le monde. Cela cause beaucoup de problèmes lorsque nous enseignons ou expliquons ce que nous faisons. Je vais commencer une liste (et maintenant je vais ajouter quelques définitions, par commentaires):

  • Le pouvoir est la capacité de rejeter correctement une fausse hypothèse nulle. Habituellement, cela signifie dire correctement "quelque chose se passe".
  • Biais - une statistique est biaisée si elle est systématiquement différente du paramètre de population qui lui est associé.
  • Importance - les résultats sont statistiquement significatifs à un certain pourcentage (souvent 5%) dans la situation suivante: si la population d'où provient l'échantillon a un effet réel de 0, une statistique au moins aussi extrême que celle obtenue de l'échantillon apparaît uniquement 5% du temps.
  • Interaction - Deux variables indépendantes interagissent si la relation entre la variable dépendante et une variable indépendante est différente à des niveaux différents de l'autre variable indépendante.

Mais il doit y en avoir beaucoup d'autres!

Peter Flom
la source
5
Je suggérerais aux personnes d'ajouter également un contexte plus détaillé à leurs réponses. Les exemples peuvent être le même mot utilisé différemment dans différents domaines (effets fixes Gelman, 2005 ) ou des mots ayant différentes significations dans différents contextes (signification versus signification statistique, Bushway et al., 2006 ).
Andy W
5
Il serait bon que les répondants puissent expliquer en une ou deux phrases ce que le terme "technique" signifie réellement ou ce qui pourrait donner à ce terme l’apparence d’un sens différent.
chl
Je compléterai ma réponse en fonction de vos commentaires plus tard ;-)
lundi
1
... et "corrélation"!
Stéphane Laurent
1
Pour "exemple", voir les commentaires à stats.stackexchange.com/questions/20945/… .
whuber

Réponses:

21

"Significant" est le plus important que je rencontre, car il a à la fois une signification commune en anglais et que cette signification apparaîtra dans la discussion des résultats de recherche. Je me trouve même que mélanger «significatif» signifie important dans la même phrase où j'ai parlé de résultats statistiques.

De cette façon se trouve la folie.

Fomite
la source
Bien, mais il n'y a pas de meilleur mot pour "je suis vraiment sûr que c'est significatif, mais je n'ai pas fait de test, et je ne le ferai pas, parce que c'est évident / impossible à faire / peu importe"
naught101
17

Je suggère d'ajouter Linear à la liste.

J'ai posé une question sur math.SE à propos de ce que je considère, en tant qu'ingénieur, comme une estimation d'erreur quadratique moyenne minimale linéaire d'une variable aléatoire étant donné la valeur d'une variable aléatoire (ce qui signifie estimer comme avec et étant choisis de manière à minimiser ), et a donné une réponse partielle. Un des commentaires sur la question ditX Y Y = a X + b a b E [ ( Y - a X - b ) 2 ]YXYY^=aX+babE[(YaXb)2]

"Je suis un peu mal à l'aise avec votre langage, car je crains que cette façon d'utiliser le mot" linéaire "puisse alimenter le malentendu populaire selon lequel la raison pour laquelle la régression linéaire est appelée régression linéaire est qu'on ajuste une ligne. Les gens qui pensent que puis trouvez cela déroutant lorsqu'un statisticien insiste sur le fait que l'on fait une régression linéaire quand on convient à une parabole ou une onde sinusoïdale, etc. "

Alors, que signifie la régression linéaire pour un statisticien?

Dilip Sarwate
la source
5
Question connexe sur le site en référence à cette réponse, Que signifie linéaire dans la régression linéaire?
Andy W
1
@AndyW Alors diriez-vous que Linear fait partie de la liste que Peter Flom a commencée, ou pas?
Dilip Sarwate
1
oui, je suis d'accord, cela convient parfaitement à cette liste. (+1)
Andy W
4
Cela correspond à la liste, mais pour une raison inhabituelle: la signification du terme "linéaire" est bien établie et utilisée de manière cohérente dans de nombreux domaines axés sur les mathématiques. La confusion potentielle concerne la partie linéaire de la formule.
whuber
Pouvez-vous donner un exemple de votre adaptation à une parabole tout en l'appelant un modèle linéaire?
oneloop
14

probabilité

Il me semble que la plupart des problèmes liés à l'interprétation des tests d'hypothèse et des intervalles de confiance découlent de l'application d'une définition bayésienne de la "probabilité" lorsque la procédure est basée sur une procédure fréquentiste. Par exemple, la valeur p étant la probabilité que l'hypothèse nulle soit vraie, lorsqu'aucune probabilité AFAICS ne peut être associée à la vérité d'une hypothèse particulière dans un contexte fréquentiste.

Dikran Marsupial
la source
4
Il semble que les mêmes considérations s’appliqueraient à ceux qui sont habitués à dire que le paramètre (vrai) a 95% de chances de se situer entre xx et xx, lorsqu’on parle de / interprète des intervalles de confiance.
chl
1
Oui absolument!
Dikran Marsupial
1
+1 Je formulerais toutefois votre dernière phrase légèrement différemment. Dans le réglage le plus fréquent, la probabilité que l'hypothèse nulle soit vraie est 1 ou 0, mais vous ne savez pas laquelle . ( À proprement parler, ce n'est pas tout à fait raison, parce que « probabilité » est une fréquence relative à long terme et « fréquence à long terme » ne s'applique pas vraiment. Néanmoins, quand formulé cette façon dont les gens peuvent comprendre ce qui est dit / comment nous comprenons nous sommes dans la situation. Par exemple, les gens réalisent que vous ne pouvez pas utiliser la valeur p de l'hypothèse nulle comme la probabilité que celle-ci soit vraie.)
gung - Reinstate Monica
2
"parce que la" probabilité "est une fréquence relative à long terme" De nombreux probabilistes contesteront avec véhémence cette déclaration
Dilip Sarwate
14

"Confiance"

Il est très difficile de dissuader les non-statisticiens que leur intervalle de confiance ne constitue pas (directement) une déclaration sur la crédibilité de différentes valeurs de paramètre.

Pour avoir confiance dans la signification technique du terme, nous devons imaginer un ensemble d'expériences répétées, chacune calculant un intervalle d'une manière prédéterminée. Pour que l'intervalle de confiance soit de 95%, 95% de ces utilisations de la formule piégeront le paramètre d'intérêt pertinent.

Mais les non-statisticiens interprètent systématiquement "confiance à 95%" comme une déclaration concernant des valeurs de paramètres plausibles, basées sur une seule expérience. Généralement, ils supposent que l'intervalle couvre 95% de certaines croyances postérieures concernant le paramètre, c'est-à-dire "nous sommes presque certains que le paramètre se situe entre et ". Cela définit plutôt un intervalle crédible .bab

(Il y a bien sûr des situations où les deux notions s'accordent, approximativement ou exactement. Mais en général non, et l'accord numérique ne supprime pas le problème de l'utilisation abusive de termes techniques.)

client
la source
10

"Probabilité" - il est synonyme de "probabilité" dans le langage courant, mais en statistique, il a une signification particulière: il est fonction des paramètres d'un modèle statistique, dont la valeur est la probabilité que le résultat observé prenne pour hypothèse que les paramètres sont égaux aux valeurs des paramètres.

xuexue
la source
8

Erreur.

En statistique, une "erreur" est un écart d'une valeur de donnée réelle par rapport à la prédiction d'un modèle.

Dans la vraie vie, une erreur est un problème grave ou une autre gaffe.

Harvey Motulsky
la source
Une faute d'orthographe n'est-elle pas simplement un écart par rapport à la valeur réelle (prévue) du moyen de communication? Je ne vois pas vraiment en quoi c'est un mot différent, c'est juste qu'il est utilisé dans un contexte différent (mais pas en conflit). J'ai du mal à croire que ce serait si déroutant pour un nouveau venu sur le terrain.
naught101
2
L'une des raisons pour lesquelles une valeur peut différer d'une prédiction est que l'expérimentateur s'est trompé. C'est comme une faute d'orthographe. Mais pourquoi votre poids est-il différent du poids moyen de toutes les personnes de votre sexe et de votre âge? Pourquoi votre revenu est-il différent du revenu moyen? En statistique, cet écart par rapport à la moyenne est une "erreur" mais ce n'est pas une erreur, mais une variation.
Harvey Motulsky
C'est vrai, mais je pense que cela dépend de votre façon de voir les choses. Si vous regardez l'orthographe d'un mot sur un échantillon d'école primaire, vous obtiendrez une variation, causée par les humains, oui, mais non causée par l'expérimentateur. Vous pourriez regarder la même chose pour écrire en anglais d'âges différents. Je pense que vous constaterez que le début de l'anglais a une variabilité beaucoup plus élevée :)
naught101
@HarveyMotulsky: la chimie analytique utilise l'erreur dans les deux sens. Nous parlons d'erreur systématique, d'erreur aléatoire et d'erreur grossière. Manuel: "les erreurs grossières peuvent être évitées".
cbeleites soutient Monica
8

"Inférence"

L'une des choses les plus difficiles à comprendre pour moi au début était la différence entre une population et un échantillon. Les statisticiens écrivent ces équations de régression sophistiquées au niveau de la population, puis tombent soudainement dans le travail au niveau de l'échantillon et les s deviennent s. Il m'a fallu beaucoup de temps pour réaliser que vous utilisiez les données au niveau de l'échantillon et les équations de régression pour estimer les paramètres au niveau de la population.bβb

Le théorème de la limite centrale est un autre élément important de l'inférence. Une fois que vous réalisez que vous échantillonnez simplement dans une population - bien que l'échantillonnage soit une autre caractéristique compliquée s'apparentant à l'inférence - vous comprenez alors que même si la moyenne de l'échantillon contient une valeur, cette valeur n'est pas nécessairement la même que dans la population. .

J'ai peut-être mal compris votre question, mais une fois que quelqu'un a compris l'inférence ou les différences entre un échantillon et la population, l'ensemble des statistiques leur est ouvert.

Adam
la source
7

Pour nous (ou du moins pour moi), le "caractère aléatoire" d'un "échantillon" suggère qu'il est représentatif de la "population".

Pour d'autres, le "hasard" implique parfois qu'une personne / une chose est inhabituelle.

Thomas Levine
la source
1
Je n'ai pas rencontré cette confusion sur le «hasard». Mais si vous avez, alors clairement il existe.
Peter Flom - Rétablir Monica
3
Plus précisément, cela a existé
Thomas Levine
1
Cette dernière utilisation de "aléatoire" me semble assez récente. Je trouve cela un peu gênant pour cette raison (cela rend les statistiques plus difficiles à comprendre pour les gens). C'est encore plus énervant quand je m'entends utiliser cela dans ce sens ..
naught101
5

Je pense qu’il faut distinguer entre les termes qui déroutent le public et les termes qui déroutent les statisticiens. Les suggestions ci-dessus sont principalement des termes bien compris par les statisticiens et (éventuellement) incompris par le public. Je souhaite ajouter à la liste quelques termes mal compris par les statisticiens:

  • Bayésien: à l'origine ce qu'on appelle aujourd'hui le subjectif de Bayes (ou épistémique De De Finetti). Aujourd'hui, le terme sera utilisé chaque fois que la règle de Bayes apparaît, rarement dans le contexte de croyances subjectives, ce qui est considéré comme une théorie de la décision.
  • Bayes empiriques: se référant à l'origine à une configuration fréquentiste avec un préalable non paramétrique . Aujourd'hui, on entend généralement que les paramètres du prior paramétrique (objectif) sont estimés et non connus a priori. C'est-à-dire ce qu'on appelait autrefois le maximum de vraisemblance de type II.
  • Non paramétrique: fait parfois référence à "modèle libre". Parfois, pour "distribution gratuite". Devenu pratiquement non informatif à l'époque, les modèles "paramétriques" pourraient inclure des millions de paramètres.
  • Erreur de type III: faisant parfois référence à une erreur de signature. Se référant parfois à une spécification erronée du modèle.
JohnRos
la source
Quand j’ai demandé, j’avais l’intention de mentionner «les termes prêtant à confusion pour le grand public», mais il vaut certainement la peine de les énumérer
Peter Flom - Réintégrer Monica
Cela devrait probablement être divisé en réponses séparées.
naught101
4

Écologique, couramment utilisé pour désigner les systèmes biologiques, mais aussi une erreur statistique. De Wikipedia:

Une erreur écologique (ou erreur d'inférence écologique) est une erreur dans l'interprétation de données statistiques dans une étude écologique, dans laquelle les conclusions sur la nature d'individus spécifiques sont basées uniquement sur les statistiques globales collectées pour le groupe auquel ces individus appartiennent. Cette erreur suppose que chaque membre d'un groupe présente les caractéristiques moyennes du groupe dans son ensemble.

cycliste
la source
3

Une "enquête" est-elle un type de calcul ("sondage") ou une feuille de papier ("questionnaire")?

Je n'ai pas mené d'enquête à ce sujet, mais je soupçonne qu'une grande partie du public considère une "enquête" comme étant cette dernière. Je soupçonne en outre qu'ils ne pensent pas à l'ancien.

Thomas Levine
la source
2
Les sondages ne sont-ils pas effectués? ;)
zbicyclist le
3

"Chargements", "Coefficients" et "Poids"; quand on parle d'analyse en composantes principales.

Je trouve généralement les gens très ad hoc quand ils les utilisent, les employant de manière interchangeable sans d'abord définir explicitement ce qu'ils signifient. J'ai en fait rencontré des documents faisant référence à des "vecteurs de chargement" et faisant parfois référence aux PC eux-mêmes et parfois aux "poids". associé à un PC spécifique.

Probablement le fait que l'excellente référence de Jollifee sur les composants principaux indique à la fin de la section 1.1 "Certains auteurs distinguent les termes" charges "et" coefficients ", en fonction de la contrainte de normalisation utilisée, mais ils seront utilisés de manière interchangeable dans ce livre." juste fait croire aux gens qu'ils ont un laissez-passer gratuit pour mélanger et assortir la terminologie à leur goût ....

usεr11852 dit Réintégrer Monic
la source
1

Modèle additif. Toujours pas vraiment sûr de ce que cela signifie. Je pense que cela fait référence à un modèle sans termes d'interaction. Mais ensuite, je trouverai un article dans lequel ils l'utiliseront pour faire référence à autre chose, à savoir un modèle spline.

Glen
la source
0

Un des termes que je trouve le plus déroutant est la "matrice de confusion". Bien sûr, le terme utilisé est déroutant, pas le concept.

J'ai essayé de retracer l'historique du terme et c'est assez intéressant aussi. La matrice de confusion a été inventée à 1904 par ( http://en.wikipedia.org/wiki/Karl_Pearson ). Il a utilisé le terme http://en.wikipedia.org/wiki/Contingency_table . Il est apparu à Karl Pearson, FRS (1904). Contributions mathématiques à la théorie de l'évolution (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Au cours de War World 2, http: //en.wikipedia.org/wiki/Detection_theory a été développé pour étudier les relations entre stimulus et réponses. La matrice de confusion a été utilisée ici.

En raison de la théorie de la détection, le terme a été utilisé une psychologie. De là, le terme a atteint l'apprentissage automatique.

Il semble que bien que le concept ait été inventé dans les statistiques, un domaine très lié à l’apprentissage automatique, il est parvenu à l’apprentissage automatique après un détour de 100 ans.

Pour quelques références sur l’utilisation du terme, voir: Quelle est l’origine du terme matrice de confusion?

DaL
la source
-4

"Statistiques"

Pour le grand public, substitut à "maintenant je vais vous mentir et parler d'une manière que vous ne comprenez pas".

John
la source