Comment décrire les statistiques en une phrase?

27

Quand j'ai commencé à apprendre les statistiques, des procédures comme le test t, l'ANOVA, le chi carré et la régression linéaire semblaient être des créatures très différentes. Mais maintenant je réalise que ces procédures font chacune plus ou moins la même chose. Et de même, des valeurs telles que la variance, les résidus, l'erreur standard et la moyenne mesurent également plus ou moins la même chose.

Je pense donc que toutes ces procédures et valeurs, et en fait toutes les statistiques, peuvent être décrites en une seule phrase simple:

Quelle est la valeur attendue et quelle est la variation autour de cette valeur?

Le mot attendu pourrait être remplacé par n'importe lequel de ces mots: hypothétique, prédit ou central.

Comment les autres décriraient-ils les statistiques en une phrase?

luciano
la source
10
@Trynna Cette description est beaucoup trop étroite: elle ne caractérise que l'estimation ponctuelle. C'est comme décrire les mathématiques comme additionnant et multipliant des nombres - ce qui pourrait très bien être le point de vue de quelqu'un qui a étudié l'arithmétique pendant quelques années à l'école - mais est loin de ce que comprend le domaine.
whuber

Réponses:

26

Les statistiques fournissent le raisonnement et les méthodes de production et de compréhension des données.

Association statistique américaine

Whuber
la source
+1 J'essayais de trouver une expression de quelque chose de très proche de cette notion. J'aurais ajouté quelque chose au sujet de tirer des conclusions sur la base de données, mais ce n'est pas aussi succinct.
Glen_b -Reinstate Monica
3
@Glen Vous pouvez dire que beaucoup de réflexion a été mise sur cette caractérisation. J'aime l'avoir ici quelque part sur notre site. Cela, ainsi qu'une description concise de l'apprentissage automatique, devrait faire partie de nos pages d'aide.
whuber
2
Je ne suis pas sûr d'être d'accord avec la citation (bien que ce soit une belle aspiration). En tant qu'épidémiologiste, je sais que je connais des choses sur la conception des études et la production de données et d'inférences causales autour de celles-ci, ce qui est en dehors du ken de bon nombre des bons statisticiens autour de moi. En effet, l'inférence causale fantaisiste pour les graphiques causaux récursifs provient de trois domaines non nommés statistiques (épidémiologie, informatique et sociologie, si je comprends bien). Ne pas soulever cela dans un esprit belliqueux, mais parce que la phrase citée décrit une grande partie de la science et ne définit pas les statistiques en soi .
Alexis
3
La description de l'ASA porte beaucoup plus sur les statistiques en tant que domaine de la connaissance et de l'activité humaine, et ne définit pas qui pourrait être un "statisticien". Jusqu'à ce que les statisticiens professionnels de la Seconde Guerre mondiale soient rares, mais cela ne signifie pas que les statistiques n'étaient pas appliquées dans les environnements commerciaux et universitaires. Je ne pense pas qu'une bonne définition des statistiques puisse se limiter à ce que font les statisticiens professionnels.
Silverfish
1
@Alexis Il y a peut-être une certaine difficulté avec le niveau de compréhension impliqué par le mot "compréhension", que la définition de l'ASA laisse plutôt ambigu dans sa brièveté. Une interprétation plus large pourrait être trop globale. Certes, si nous incluons l'interprétation matérielle ou sociale substantielle et les mécanismes sous-jacents dans le cadre de la «compréhension», cela va au-delà des «simples» statistiques. D'un autre côté, il n'est pas clair pour moi pourquoi l'inférence à partir de données, causales ou non, ne peut pas relever des domaines de l'effort scientifique et statistique.
Silverfish
13

La statistique s'intéresse fondamentalement à la compréhension de la structure des données.

Bill Venables et Brian Ripley, première phrase du chapitre 1 de Statistiques appliquées modernes avec S

mark999
la source
1
Il s'agit d'un point de vue intéressant sur les statistiques, bien que limité. Les ambiguïtés possibles sont révélatrices: un informaticien comprendrait la «structure des données» de manière non statistique. (Venables et Ripley travaillent à l'intersection de la statistique et de l'informatique.)
whuber
@whuber, je suis d'accord avec vous. Rien ne suggère que V&R voulait que ce soit une description en une phrase de toutes les statistiques, mais depuis que je l'ai lu pour la première fois, j'ai pensé que c'était une belle description. J'interprète la "structure des données" comme "les caractéristiques de la population dont l'échantillon a été prélevé".
mark999
10

Les statistiques fournissent le raisonnement et les méthodes de conversion des données en informations significatives.

IrishStat
la source
8

Selon les mots de feu Leo Breiman:

Les objectifs des statistiques sont d'utiliser les données pour prévoir et obtenir des informations sur le mécanisme de données sous-jacent.

http://projecteuclid.org/euclid.ss/1009213726

Richard Border
la source
5

Personnellement, j'aime la citation suivante de Stephen Senn dans Dicing with death. Chance, Risk and Health (Cambridge University Press, 2003). J'ai souligné une phrase (ou deux) qui, je crois, résume son point principal, bien que le paragraphe dans son ensemble mérite d'être lu.

Les statistiques sont et les statistiques sont.
La statistique, singulière, contrairement à la perception populaire, ne concerne pas vraiment les faits; il s'agit de savoir comment nous savons, soupçonnons ou croyons que quelque chose est un fait. Parce que connaître des choses implique de les compter et de les mesurer, alors, il est vrai, que la statistique plurielle fait partie du souci de la statistique singulière, qui est la science du raisonnement quantitatif. Cette science a beaucoup plus en commun avec la philosophie (en particulier l'épistémologie) qu'avec la comptabilité. Les statisticiens sont des philosophes appliqués. Les philosophes soutiennent combien d'anges peuvent danser sur la tête d'une aiguille; les statisticiens les comptent . Ou plutôt, comptez combien peuvent probablement danser.La probabilité est le cœur de la matière, le cœur de toute matière si l'on en croit les physiciens quantiques. Pour le statisticien, cela est vrai, que le monde soit strictement déterministe comme le croyait Einstein ou qu'il existe une indétermination résiduelle inéluctable. Nous ne pouvons rien prédire avec certitude, mais nous pouvons prédire à quel point nos prévisions seront incertaines, en moyenne. La statistique est la science qui nous dit comment.

chl
la source
5

La statistique est la science de l'apprentissage à partir des données et de la mesure, du contrôle et de la communication de l'incertitude.

Marie Davidian et Thomas Louis

Ils continuent:

; et il fournit ainsi la navigation essentielle pour contrôler le cours des avancées scientifiques et sociétales

Momo
la source
J'aime cette définition car elle distingue l'aspect "incertitude". La deuxième partie est intéressante car elle dit que les statistiques n'existent pas seulement en elles-mêmes, mais doivent être vues dans un contexte plus large. Pour être complètement satisfait cependant, je fusionnerais peut-être cela avec celui de l'ASA pour:
Momo
1
La statistique en tant que science de l'apprentissage des données et de la mesure, du contrôle et de la communication de l'incertitude fournit le raisonnement et les méthodes pour produire et comprendre les données.
Momo
2

Les statistiques sont un ensemble de méthodes et de modes de pensée qui aident les gens à tirer des conclusions claires à partir d'informations bruyantes.

Michael Lew
la source
2

Parce que nous ne sommes pas une créature omnisciente divine, nous devons faire face à l'incertitude et Statistics fournit des méthodes pour incorporer et refléter cette incertitude.

elevendollar
la source
2

La statistique est un sous-domaine de la philosophie qui traite de la question suivante «comment nous apprenons des observations» en utilisant des concepts mathématiques rigoureux.

juste une note que vous pouvez faire «une phrase» très longue, il y a un livre écrit par B. Hrabal qui se compose d'une longue phrase, voir: Leçons de danse pour les avancés dans l'âge

pes
la source
2

La statistique est à la fois la science de l'incertitude et la technologie d'extraction d'informations à partir de données

David J. Hand

Momo
la source
2

Les statistiques sont un ensemble de principes logiques et de méthodes mathématiques pour résumer les informations quantifiées de manière précise et pertinente.

SQLServerSteve
la source
1

Avec mes propres mots

Statistics is the science of what might be

C'est une sorte de ironie .

MCP_infiltrator
la source
1
Si vous deviez masquer le premier mot et demander aux gens de remplir le blanc, je soupçonne que les "statistiques" ne seraient pas la première chose qu'elles proposent - et peut-être pas la deuxième ou la troisième non plus. «Futurologie», «spéculation», «science-fiction» et peut-être - en vous rapprochant un peu de votre intention - «prédiction» et «prévision» - seraient probablement des choix populaires. Même «onirologie» et «apotropaïsme» seraient des possibilités. :-)
whuber
1

Fisher ( 1922 ) a donné son point de vue sur l'essence des statistiques dans la citation suivante (police en gras ajoutée par moi pour l' exigence d' une phrase ):

Pour arriver à une formulation distincte des problèmes statistiques, il faut définir la tâche que le statisticien se donne: brièvement et sous sa forme la plus concrète, l'objet des méthodes statistiques est la réduction des données . Une quantité de données, qui, en général, par sa seule masse, est incapable d'entrer dans l'esprit, doit être remplacée par relativement peu de quantités qui représenteront adéquatement l'ensemble, ou qui, en d'autres termes, contiendront autant que possible, idéalement l'ensemble , des informations pertinentes contenues dans les données d'origine.

ekvall
la source
0

Un one-liner orienté résultats (et donc pas vraiment descriptif ) serait, pour moi,

La statistique est ce qui fait tourner le monde humain, indépendamment de ce qui fait la même chose pour la nature.

Alecos Papadopoulos
la source
3
Confondez-vous les statistiques avec la politique? Ou peut-être avec amour?
whuber
@whuber (+1) Non. Les deux prennent la plupart de leurs décisions sur la base des statistiques, qu'ils le réalisent ou non.
Alecos Papadopoulos
2
Je peux le voir maintenant, dans un film à venir, quand le premier rôle masculin se met à genoux pour proposer: "Bébé, tu es mon UMVUE, veux-tu m'épouser?" :-) (Utilisons un estimateur de retrait et réunissons nos coefficients ...)
whuber
@whuber (+2) ... c'est la partie "ne s'en rend pas compte": c'est exactement ce que signifie le rôle principal masculin , même s'il n'utilise pas la langue! (Je concède que je peux être coupable d'impérialisme philosophique ici).
Alecos Papadopoulos
2
Votre contexte culturel profondément respectable (dans la mesure où votre nom et votre emplacement permettent d'en déduire), que l'on peut remonter au moins aux premiers sophistes, vous offre une certaine latitude à cet égard. :-)
whuber
0

La statistique est un outil de modélisation de la génération de données par des processus incertains et / ou probabilistes.

thecity2
la source
-1

Les statistiques consistent à torturer les données suffisamment longtemps jusqu'à ce qu'elles confessent tout ce que vous voulez montrer.

Je paraphrase Ronald Coase, voir le lien

xeon
la source
-1, était-ce censé être ironique?
gung - Réintègre Monica
@gung oui et non, je citais Ronald Coase.
Vladislavs Dovgalecs
3
Sur la base de la version ici , c'est au mieux une mauvaise paraphrase. Ce n'est pas un bon résumé d'une phrase de ce que sont les statistiques.
gung - Réintègre Monica
3
@gung bien, le PO a demandé comment différentes personnes le décriraient. Ce sera toujours son point de vue ou son opinion. Ce sera différent pour différentes personnes. OP a essayé de recueillir différentes opinions à mon humble avis.
Vladislavs Dovgalecs
2
xeon ce serait une grande gentillesse de Coase de modifier votre réponse pour citer et source correctement l'attribution.
Alexis
-2

La statistique est la science mathématique qui vous permet de déterminer si la différence entre les ensembles d'observations est juste aléatoire ou non.

Sympa
la source
1
Décrit un sous-ensemble étroit de ce qu'est le champ.
rolando2
Je le vois différemment. En fin de compte, que vous effectuiez des tests d'hypothèse, une modélisation de régression ou toute autre estimation, vous mesurez toujours le plus souvent si la différence entre votre estimation par rapport à un modèle naïf ou la différence dans les observations est statistiquement significative ou non. Ma phrase capture l'essence de la signification statistique par rapport au hasard. Si d'autres sont d'accord, pouvez-vous me donner quelques votes, donc mon commentaire qui est facilement justifiable n'est pas traité comme une mauvaise réponse tout simplement en raison de l'interprétation subjective de l'étroitesse par un individu.
Sympa
2
veuillez considérer ces types de questions auxquelles on cherche souvent à répondre en utilisant des statistiques: Quelle est la forme de cette distribution? Quelle est la nature de la relation entre ces 2 variables? Comment regrouper ces nombreuses variables pour voir les problèmes / thèmes / sujets / dimensions communs? Comment regrouper ces nombreux cas afin que nous puissions voir les types / profils communs? Quelle est la meilleure façon de décrire ce réseau de relations avec un œil vers la causalité? Qu'est-ce qui capte la tendance de cette variable au fil du temps? Quelle est la meilleure façon de prévoir les valeurs futures?
rolando2
Dans chacun de ces cas, la réponse à ces questions a un fort élément de signification statistique et si ce que vous regardez sous quelque forme que ce soit est différent de ce qui pourrait se produire par pur hasard. Pour la plupart d'entre nous, un vote négatif signifie une réponse explicitement erronée. Je ne vois pas comment ma réponse pourrait être classée comme telle.
Sympa
1
Le texte de survol sur la flèche de downvote indique "cette réponse n'est pas utile." Je le trouve intéressant - et donc pas inutile - parce qu'il est source de réflexion, mais je ne l'ai pas voté pour plusieurs raisons. Le premier est l'affirmation selon laquelle les statistiques est une « science mathématique »: qui vient dangereusement proche de l'idée fausse (surtout chez certains mathématiciens) que les statistiques est juste une branche des mathématiques. La seconde est qu'elle ne semble caractériser que les tests d'hypothèse à deux échantillons, ce qui est une partie très étroite (quoique omniprésente) des statistiques.
whuber