En tant que statisticiens, nous utilisons beaucoup de mots de manière légèrement différente de celle utilisée par tout le monde. Cela cause beaucoup de problèmes lorsque nous enseignons ou expliquons ce que nous faisons. Je vais commencer une liste (et maintenant je vais ajouter quelques définitions, par commentaires):
- Le pouvoir est la capacité de rejeter correctement une fausse hypothèse nulle. Habituellement, cela signifie dire correctement "quelque chose se passe".
- Biais - une statistique est biaisée si elle est systématiquement différente du paramètre de population qui lui est associé.
- Importance - les résultats sont statistiquement significatifs à un certain pourcentage (souvent 5%) dans la situation suivante: si la population d'où provient l'échantillon a un effet réel de 0, une statistique au moins aussi extrême que celle obtenue de l'échantillon apparaît uniquement 5% du temps.
- Interaction - Deux variables indépendantes interagissent si la relation entre la variable dépendante et une variable indépendante est différente à des niveaux différents de l'autre variable indépendante.
Mais il doit y en avoir beaucoup d'autres!
terminology
communication
Peter Flom
la source
la source
Réponses:
"Significant" est le plus important que je rencontre, car il a à la fois une signification commune en anglais et que cette signification apparaîtra dans la discussion des résultats de recherche. Je me trouve même que mélanger «significatif» signifie important dans la même phrase où j'ai parlé de résultats statistiques.
De cette façon se trouve la folie.
la source
Je suggère d'ajouter Linear à la liste.
J'ai posé une question sur math.SE à propos de ce que je considère, en tant qu'ingénieur, comme une estimation d'erreur quadratique moyenne minimale linéaire d'une variable aléatoire étant donné la valeur d'une variable aléatoire (ce qui signifie estimer comme avec et étant choisis de manière à minimiser ), et a donné une réponse partielle. Un des commentaires sur la question ditX Y Y = a X + b a b E [ ( Y - a X - b ) 2 ]Y X Y Y^=aX+b a b E[(Y−aX−b)2]
"Je suis un peu mal à l'aise avec votre langage, car je crains que cette façon d'utiliser le mot" linéaire "puisse alimenter le malentendu populaire selon lequel la raison pour laquelle la régression linéaire est appelée régression linéaire est qu'on ajuste une ligne. Les gens qui pensent que puis trouvez cela déroutant lorsqu'un statisticien insiste sur le fait que l'on fait une régression linéaire quand on convient à une parabole ou une onde sinusoïdale, etc. "
Alors, que signifie la régression linéaire pour un statisticien?
la source
probabilité
Il me semble que la plupart des problèmes liés à l'interprétation des tests d'hypothèse et des intervalles de confiance découlent de l'application d'une définition bayésienne de la "probabilité" lorsque la procédure est basée sur une procédure fréquentiste. Par exemple, la valeur p étant la probabilité que l'hypothèse nulle soit vraie, lorsqu'aucune probabilité AFAICS ne peut être associée à la vérité d'une hypothèse particulière dans un contexte fréquentiste.
la source
"Confiance"
Il est très difficile de dissuader les non-statisticiens que leur intervalle de confiance ne constitue pas (directement) une déclaration sur la crédibilité de différentes valeurs de paramètre.
Pour avoir confiance dans la signification technique du terme, nous devons imaginer un ensemble d'expériences répétées, chacune calculant un intervalle d'une manière prédéterminée. Pour que l'intervalle de confiance soit de 95%, 95% de ces utilisations de la formule piégeront le paramètre d'intérêt pertinent.
Mais les non-statisticiens interprètent systématiquement "confiance à 95%" comme une déclaration concernant des valeurs de paramètres plausibles, basées sur une seule expérience. Généralement, ils supposent que l'intervalle couvre 95% de certaines croyances postérieures concernant le paramètre, c'est-à-dire "nous sommes presque certains que le paramètre se situe entre et ". Cela définit plutôt un intervalle crédible .ba b
(Il y a bien sûr des situations où les deux notions s'accordent, approximativement ou exactement. Mais en général non, et l'accord numérique ne supprime pas le problème de l'utilisation abusive de termes techniques.)
la source
"Probabilité" - il est synonyme de "probabilité" dans le langage courant, mais en statistique, il a une signification particulière: il est fonction des paramètres d'un modèle statistique, dont la valeur est la probabilité que le résultat observé prenne pour hypothèse que les paramètres sont égaux aux valeurs des paramètres.
la source
Erreur.
En statistique, une "erreur" est un écart d'une valeur de donnée réelle par rapport à la prédiction d'un modèle.
Dans la vraie vie, une erreur est un problème grave ou une autre gaffe.
la source
"Inférence"
L'une des choses les plus difficiles à comprendre pour moi au début était la différence entre une population et un échantillon. Les statisticiens écrivent ces équations de régression sophistiquées au niveau de la population, puis tombent soudainement dans le travail au niveau de l'échantillon et les s deviennent s. Il m'a fallu beaucoup de temps pour réaliser que vous utilisiez les données au niveau de l'échantillon et les équations de régression pour estimer les paramètres au niveau de la population.bβ b
Le théorème de la limite centrale est un autre élément important de l'inférence. Une fois que vous réalisez que vous échantillonnez simplement dans une population - bien que l'échantillonnage soit une autre caractéristique compliquée s'apparentant à l'inférence - vous comprenez alors que même si la moyenne de l'échantillon contient une valeur, cette valeur n'est pas nécessairement la même que dans la population. .
J'ai peut-être mal compris votre question, mais une fois que quelqu'un a compris l'inférence ou les différences entre un échantillon et la population, l'ensemble des statistiques leur est ouvert.
la source
Pour nous (ou du moins pour moi), le "caractère aléatoire" d'un "échantillon" suggère qu'il est représentatif de la "population".
Pour d'autres, le "hasard" implique parfois qu'une personne / une chose est inhabituelle.
la source
Je pense qu’il faut distinguer entre les termes qui déroutent le public et les termes qui déroutent les statisticiens. Les suggestions ci-dessus sont principalement des termes bien compris par les statisticiens et (éventuellement) incompris par le public. Je souhaite ajouter à la liste quelques termes mal compris par les statisticiens:
la source
Écologique, couramment utilisé pour désigner les systèmes biologiques, mais aussi une erreur statistique. De Wikipedia:
Une erreur écologique (ou erreur d'inférence écologique) est une erreur dans l'interprétation de données statistiques dans une étude écologique, dans laquelle les conclusions sur la nature d'individus spécifiques sont basées uniquement sur les statistiques globales collectées pour le groupe auquel ces individus appartiennent. Cette erreur suppose que chaque membre d'un groupe présente les caractéristiques moyennes du groupe dans son ensemble.
la source
Une "enquête" est-elle un type de calcul ("sondage") ou une feuille de papier ("questionnaire")?
Je n'ai pas mené d'enquête à ce sujet, mais je soupçonne qu'une grande partie du public considère une "enquête" comme étant cette dernière. Je soupçonne en outre qu'ils ne pensent pas à l'ancien.
la source
"Chargements", "Coefficients" et "Poids"; quand on parle d'analyse en composantes principales.
Je trouve généralement les gens très ad hoc quand ils les utilisent, les employant de manière interchangeable sans d'abord définir explicitement ce qu'ils signifient. J'ai en fait rencontré des documents faisant référence à des "vecteurs de chargement" et faisant parfois référence aux PC eux-mêmes et parfois aux "poids". associé à un PC spécifique.
Probablement le fait que l'excellente référence de Jollifee sur les composants principaux indique à la fin de la section 1.1 "Certains auteurs distinguent les termes" charges "et" coefficients ", en fonction de la contrainte de normalisation utilisée, mais ils seront utilisés de manière interchangeable dans ce livre." juste fait croire aux gens qu'ils ont un laissez-passer gratuit pour mélanger et assortir la terminologie à leur goût ....
la source
Modèle additif. Toujours pas vraiment sûr de ce que cela signifie. Je pense que cela fait référence à un modèle sans termes d'interaction. Mais ensuite, je trouverai un article dans lequel ils l'utiliseront pour faire référence à autre chose, à savoir un modèle spline.
la source
Un des termes que je trouve le plus déroutant est la "matrice de confusion". Bien sûr, le terme utilisé est déroutant, pas le concept.
J'ai essayé de retracer l'historique du terme et c'est assez intéressant aussi. La matrice de confusion a été inventée à 1904 par ( http://en.wikipedia.org/wiki/Karl_Pearson ). Il a utilisé le terme http://en.wikipedia.org/wiki/Contingency_table . Il est apparu à Karl Pearson, FRS (1904). Contributions mathématiques à la théorie de l'évolution (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf
Au cours de War World 2, http: //en.wikipedia.org/wiki/Detection_theory a été développé pour étudier les relations entre stimulus et réponses. La matrice de confusion a été utilisée ici.
En raison de la théorie de la détection, le terme a été utilisé une psychologie. De là, le terme a atteint l'apprentissage automatique.
Il semble que bien que le concept ait été inventé dans les statistiques, un domaine très lié à l’apprentissage automatique, il est parvenu à l’apprentissage automatique après un détour de 100 ans.
Pour quelques références sur l’utilisation du terme, voir: Quelle est l’origine du terme matrice de confusion?
la source
"Statistiques"
Pour le grand public, substitut à "maintenant je vais vous mentir et parler d'une manière que vous ne comprenez pas".
la source