Je ne suis pas statisticien mais mon travail de recherche porte sur des statistiques (analyse de données, lecture de littérature, etc.). Un commentaire sur l'une de mes questions publiée ici m'a rappelé que certains mots courants ont des significations ou des connotations particulièrement spécifiques pour ceux qui sont bien pratiqués dans le domaine des statistiques.
Il sera utile d'avoir une liste de ces mots et peut être des phrases accompagnées de quelques commentaires.
terminology
user4045
la source
la source
Réponses:
« significatif » - ici, le langage utilisé couramment est de signifier quelque chose comme «important» ou «significatif». La signification statistique est officieusement plus proche de "peut être discernée à partir de variations aléatoires autour du nul"; cela ne signifie pas que la différence est suffisamment importante pour avoir de l'importance.
Voici quelques exemples où cette distinction aurait pu être source de confusion: 1 2
« paramètre » - il semble souvent arriver - en particulier dans les expériences scientifiques - que le mot «paramètre» soit utilisé de la même manière qu'un statisticien utiliserait le mot «variable». Wikipédia l'exprime ainsi:
Exemple où celui-ci peut être un problème: 1 - vraisemblablement le poste qui a conduit à cette question. (J'en ai vu un autre récemment mais je ne le trouve pas pour le moment)
la source
"Erreur" - Dans les statistiques, cela signifie souvent tout écart entre une valeur observée et prédite. Dans la vraie vie, cela signifie une erreur.
la source
J'ai trouvé un article avec comité de lecture de 2010 qui examine cette question.
Anderson-Cook CM. Jargon caché: mots de tous les jours avec des significations spécifiques aux statistiques. ICOTS8, Conférence internationale sur les statistiques de l'enseignement, Ljubljana, Slovénie, 11-17 juillet 2010.
Le document est disponible gratuitement en ligne , donc je ne fournis qu'une liste partielle des termes dont l'auteur parle:
la source
J'ai rencontré le problème de l'utilisation de la "falsification" comme dans "falsifier une hypothèse", tandis que d'autres pensaient que je faisais allusion à "la constitution de données". Il est également presque impossible de mentionner le terme " biaisé " sans créer de confusion.
la source
"normal" - Dans le langage courant, normal signifie comme prévu, pas hors de l'ordinaire. En statistique, si une variable est normalement distribuée, elle fait référence à la distribution gaussienne. Je ne crois pas qu'il soit standard de mettre en majuscule le mot «normal» pour le distinguer du sens courant du discours.
"normalisation / standardisation" - En statistique, normaliser une variable signifie soustraire la moyenne et diviser par l'écart-type.
«écart-type par rapport à l'erreur-type» - L'écart-type est généralement calculé en utilisant l'ensemble de la population tandis que l'erreur-type est calculée en utilisant l'échantillon.
la source
«Paramétrique» contre «non paramétrique»: catégories de tests qui nécessitent des données «normales» ou «non normales». Les tests paramétriques sont préférés aux tests non paramétriques.
Tests courants: test T (apparié), Mann-Whitney U, ANOVA, Anderson-Darling, etc.
D'autres termes incluent «significatif». Il s'agit de mesurer si les données indiquent que votre hypothèse est valide ou non. Lorsque vous testez votre hypothèse à un certain degré de probabilité (normalement 95%), une "valeur p" inférieure à 0,05 indiquerait que vous rejetteriez votre "hypothèse nulle" (c'est-à-dire que les ensembles de données ne sont pas différents) et accepteriez votre " hypothèse alternative "(c'est-à-dire que les ensembles de données sont différents).
la source
Une asymétrie dans les statistiques implique une distribution asymétrique.
Dans un langage ordinaire, et même au sein de la science, l'asymétrie est souvent utilisée (et de plus en plus?) Pour signifier ce que les statistiques appellent habituellement biaisé , comme dans "Les résultats pour la taille moyenne sont biaisés en incluant autant de joueurs de basket-ball".
la source
Estimation - Dans les statistiques, c'est le résultat d'un calcul. Par exemple, la moyenne de l'échantillon est une estimation de la moyenne de la population et l'intervalle de confiance d'une moyenne est une estimation de l'intervalle de la moyenne de la population. Ce sont les deux résultats de calculs exacts. L '"estimation" est une généralisation précise d'essayer de faire une inférence sur une population à partir des données d'un échantillon.
En utilisation ordinaire, le mot estimation signifie une supposition ou une intuition éclairée, ou le résultat d'un calcul approximatif.
la source
Probabilité - dans le langage courant le synonyme de probabilité , mais dans les statistiques ayant une relation inverse particulière à la probabilité, en ce que, pour tout ensemble de paramètres et ensemble de données , .X L ( θ | X ) = Pr ( X | θ )θ X L(θ|X)=Pr(X|θ)
Représentant - a un certain nombre de sens parfois contradictoires dans le langage quotidien et scientifique. Voir Kruskal & Mosteller 1979a , 1979b , 1979c et 1980 . La plupart des statisticiens que je connais considéreraient un échantillon représentatif s'il était échantillonné avec une probabilité connue; la plupart des laïcs que je connais le considéreraient comme représentatif si les distributions marginales étaient proches de la population.
la source
Échantillon : alors que dans les statistiques, il s'agit d'un ensemble de cas , dans de nombreuses autres disciplines, un échantillon est un spécimen physique . Bien entendu, la taille de l'échantillon est également ambiguë, se référant soit au nombre de cas dans l'échantillon statistique, soit à la taille physique (masse, volume, ...) de l'échantillon.
Sensibilité : pour le diagnostic médical, la fraction des cas malades reconnue par le test. En chimie analytique: la pente de la courbe d'étalonnage (voir ci-dessous).
Spécificité : dans le diagnostic médical, la fraction des cas de non-maladie est correctement reconnue par le test. En chimie analytique, une méthode est spécifique s'il n'y a pas de sensibilités croisées.
Calibration : en fait, deux significations sont déjà répertoriées pour les statistiques dans l'article Wiki. En chimie et en physique, la signification de la régression inverse est la signification habituelle. La confusion naît cependant:
Validation set : ici, je voudrais attirer l'attention sur une utilisation potentiellement confuse de termes qui, je pense, se pose déjà dans les différents domaines liés aux statistiques, même si je contraste à nouveau. Dans le contexte de la validation ou de l'optimisation imbriquée / double vs validation / test, une ligne de terminologie divise formation - validation - test et utilise l'ensemble "validation" pour l'optimisation des hyperparamètres.
Par exemple, dans les éléments de l'apprentissage statistique, p. 222 dans la 2e éd. :
En revanche, par exemple en chimie analytique, la validation est la procédure qui démontre que le modèle (en fait, l'évaluation du modèle final n'est qu'une partie de la validation d'une méthode analytique) fonctionne bien pour l'application et mesure ses performances, voir par exemple John K. Taylor: Validation des méthodes analytiques, Analytical Chemistry 1983 55 (6), 600A-608A ou des directives par des institutions comme la FDA. Ce serait «tester» dans l'autre ligne de terminologie, où la «validation» est réellement utilisée pour l'optimisation.
La différence cruciale est que les résultats "d'optimisation-validation" doivent être utilisés pour changer (sélectionner) le modèle, alors que les changements dans une méthode analytique validée (y compris le modèle analytique de données) signifient que vous devez revalider (c'est-à-dire prouver que la méthode fonctionne toujours comme elle est censée fonctionner).
S'il vous arrive de devoir parler à des chimistes, une bonne référence de la terminologie de la chimie analytique est Danzer: Chimie analytique - Fondements théoriques et métrologiques, DOI 10.1007 / b103950
la source