Quelle est la différence entre les statistiques descriptives et inférentielles?

21

Ma compréhension était que les statistiques descriptives décrivaient quantitativement les caractéristiques d'un échantillon de données, tandis que les statistiques inférentielles faisaient des inférences sur les populations dont les échantillons étaient tirés.

Cependant, la page wikipedia pour l'inférence statistique indique:

Pour l'essentiel, l'inférence statistique fait des propositions sur les populations, en utilisant des données tirées de la population d'intérêt via une certaine forme d'échantillonnage aléatoire.

Le «pour la plupart» m'a fait penser que je ne comprends peut-être pas correctement ces concepts. Existe-t-il des exemples de statistiques inférentielles qui ne font pas de propositions sur les populations?

user1205901 - Réintégrer Monica
la source
Statistiques descriptives: Une pièce a été lancée dix fois et est tombée six fois dans la tête. Inférence statistique: L'estimation du maximum de vraisemblance de la probabilité de têtes est de , ou, Cette information est insuffisante pour rejeter l'hypothèse selon laquelle la pièce est une pièce équitable. 0.6
Dilip Sarwate
2
Inférence sans le concept de "population": Supposons que vos données sont générées par un mécanisme / règle aléatoire (partiellement) inconnu. Les méthodes déductives permettent d'évaluer les propriétés de ce mécanisme à partir des données. Exemple: Vous souhaitez vérifier une formule électro-physique basée sur des résultats qui ne peuvent être mesurés qu'environ ou dans des conditions imparfaites.
Michael M
1
@Michael: Oui; ou bien faire générer vos données par un mécanisme aléatoire connu - attribution aléatoire de traitements expérimentaux.
Scortchi - Réintégrer Monica

Réponses:

19

Issu d'une formation en sciences du comportement, j'associe cette terminologie notamment aux manuels d'introduction à la statistique. Dans ce contexte, la distinction est que:

  • Les statistiques descriptives sont des fonctions des échantillons de données qui sont intrinsèquement intéressantes pour décrire certaines caractéristiques des données. Les statistiques descriptives classiques incluent la moyenne, le min, le max, l'écart-type, la médiane, l'inclinaison, le kurtosis.
  • Les statistiques inférentielles sont fonction des exemples de données qui vous aident à tirer une inférence concernant une hypothèse sur un paramètre de population. Les statistiques inférentielles classiques incluent z, t, , le rapport F, etc.χ2

Le point important est que toute statistique, inférentielle ou descriptive, est fonction des données de l'échantillon. Un paramètre est une fonction de la population, où le terme population équivaut à dire le processus de génération de données sous-jacent.

De ce point de vue, le statut d'une fonction donnée des données en tant que statistique descriptive ou inférentielle dépend de l'objectif pour lequel vous l'utilisez.

Cela dit, certaines statistiques sont clairement plus utiles pour décrire les caractéristiques pertinentes des données, et certaines sont bien adaptées pour faciliter l'inférence.

  • Statistiques inférentielles: Statistiques de test standard comme t et z, pour un processus de génération de données donné, où l'hypothèse nulle est fausse, la valeur attendue est fortement influencée par la taille de l'échantillon. La plupart des chercheurs ne voient pas ces statistiques comme une estimation d'un paramètre de population d'intérêt intrinsèque.
  • Statistiques descriptives : En revanche, les statistiques descriptives estiment les paramètres de population qui présentent généralement un intérêt intrinsèque. Par exemple, la moyenne et l'écart-type de l'échantillon fournissent des estimations des paramètres de population équivalents. Même des statistiques descriptives comme le minimum et le maximum fournissent des informations sur des paramètres de population équivalents ou similaires, bien que dans ce cas, bien sûr, beaucoup plus de précautions soient nécessaires. De plus, de nombreuses statistiques descriptives peuvent être biaisées ou autrement inférieures aux estimateurs idéaux. Cependant, ils ont encore une certaine utilité pour estimer un paramètre de population d'intérêt.

Donc, de ce point de vue, les choses importantes à comprendre sont:

  • statistique : fonction des données de l'échantillon
  • paramètre : fonction de la population (processus de génération de données)
  • estimateur : fonction des données d'échantillon utilisées pour fournir une estimation d'un paramètre
  • inférence : processus pour parvenir à une conclusion sur un paramètre

Ainsi, vous pouvez soit définir la distinction entre descriptif et déductif en fonction de l'intention du chercheur à l'aide de la statistique, soit définir une statistique en fonction de la manière dont elle est généralement utilisée.

Jeromy Anglim
la source
Comment est-il justifié d'appeler des scores t ou F (plutôt que par exemple des tests t ) des statistiques inférentielles?
jona
@jona Le t-score est la "statistique" qui est utilisée dans le t-test, donc on pourrait décrire le t-score comme une statistique inférentielle lorsqu'il est utilisé dans le cadre d'un tel processus inférentiel. Je suppose que j'ai commencé avec l'hypothèse qu'une statistique est une fonction des données. Mais vous faites peut-être allusion au fait que nous considérons souvent les statistiques inférentielles comme l'ensemble plus large de techniques utilisées pour faire l'inférence?
Jeromy Anglim
Permettez-moi de l'exprimer différemment - une statistique t n'est-elle pas une description d'un échantillon, plutôt qu'une déclaration inférentielle (telle qu'une valeur p)?
jona
Eh bien oui, une fonction des données équivaut à une description d'un échantillon. Je suppose que je pensais que de telles statistiques sont utilisées dans un processus inférentiel (par exemple, les chercheurs relient la statistique t à une distribution t pour obtenir une valeur p, puis relient p à alpha pour tirer une inférence). J'ai souvent vu des manuels utiliser ces exemples. Mais je suppose que la valeur p et l'inférence binaire elle-même pourraient être considérées comme des statistiques (c'est-à-dire des fonctions des données de l'échantillon). Et l'inférence binaire elle-même pourrait être considérée comme la plus clairement alignée sur l'inférence. Est-ce là où vous voulez en venir?
Jeromy Anglim
1
Ainsi, par exemple, vous utilisez les données pour arriver à t qui est lié à une distribution, ce qui vous donne p , qui à son tour donne une inférence binaire sur un paramètre de population. Donc, d'un point de vue fréquentiste, t, p et l'inférence binaire sont toutes des variables aléatoires. Tous étaient impliqués dans le processus inférentiel. Je ne sais pas quels sont les avantages et les inconvénients d'étiqueter toutes ou seulement certaines de ces statistiques comme inférentielles.
Jeromy Anglim
8

Une forme d'inférence est basée sur l'assignation aléatoire de traitements expérimentaux, et non sur un échantillonnage aléatoire d'une population (même hypothétique). Oscar Kempthorne était un partisan.

UNEBttdix/252=0,04

La prédiction est un autre domaine où vous ne formulez pas nécessairement des propositions sur les populations. (Je ne sais pas si tout le monde voudrait appeler la prédiction "inférence", mais il y a Geisser (1993), Inférence prédictive: une introduction ). Souvent, la prévision découle d'un modèle de population ajusté, mais pas toujours; Par exemple, l'exemple de classification de Matt, la moyenne du modèle (bayésien ou basé sur les poids d'Akaike) ou des algorithmes de prévision tels que le lissage exponentiel.

NB Je pense que les "statistiques inférentielles vs descriptives" se réfèrent plus souvent à la discipline Statistiques, plutôt qu'aux quantités calculées à partir d'échantillons. Il n'y a pas de différence essentielle entre une statistique inférentielle et descriptive; comme l'a souligné @ Jeremy, c'est une question d'utilisation à laquelle vous l'utilisez.

Scortchi - Réintégrer Monica
la source
2

Je ne suis pas sûr que la classification fasse nécessairement une déclaration sur la ou les populations à partir desquelles les points de données sont tirés. La classification, comme vous le savez probablement, utilise des données d'apprentissage constituées de quelques vecteurs «d'entités», chacun étiqueté avec une classe spécifique, pour prédire les étiquettes de classe appartenant à d'autres vecteurs d'entités non étiquetés. Par exemple, nous pouvons utiliser les signes vitaux d'un patient et le diagnostic d'un médecin pour prédire si d'autres patients sont en bonne santé ou malades.

P(classe=c|fonctionnalités)c

Cependant, d'autres classificateurs recherchent les différences entre les classes sans modéliser les classes elles-mêmes; ce sont des classificateurs discriminants. Un exemple classique est le classificateur de voisin le plus proche, qui attribue un exemple sans étiquette à la classe de son voisin le plus proche (où close est défini d'une manière sensible pour le problème). Cela ne semble pas contenir beaucoup d'informations, le cas échéant, sur les populations à partir desquelles les points de données ont été tirés.

t

Matt Krause
la source
0

Sur une ligne, compte tenu des données, les statistiques descriptives tentent de résumer le contenu de vos données avec un minimum de perte d'informations (selon la mesure que vous utilisez). Vous pouvez voir la géographie des données (quelque chose comme, voir le graphique des performances de la classe et dire qui est en haut, en bas, etc.)

Sur une ligne, compte tenu des données, vous essayez d'estimer et de déduire les propriétés de la population hypothétique dont les données proviennent. (Quelque chose comme, comprendre les élèves de 7e année grâce au bon échantillon de la classe, en supposant que la population sous-jacente est suffisamment grande pour que vous ne puissiez pas les prendre en compte dans leur totalité)

Vani
la source
3
Je ne pense pas que ce soit une définition ou une caractérisation des statistiques descriptives qui visent à une perte minimale d'informations. Il est tout à fait possible d'avoir des statistiques descriptives qui omettent des détails vraiment importants et c'est souvent un problème.
Nick Cox
0

En bref

Les statistiques descriptives sont l'analyse de données qui décrivent, montrent ou résument des données de manière significative; c'est simplement une façon de décrire nos données / parler de l'ensemble de la population. certains d'entre eux sont des mesures de tendance centrale et des mesures de dispersion

Les statistiques inférentielles sont des techniques qui nous permettent d'utiliser des échantillons pour faire des généralisations sur les populations dont les échantillons ont été tirés.

Frehiwot Mulugeta
la source
0

les statistiques descriptives sont l'analyse de données qui décrivent, montrent ou résument des données de manière significative; c'est simplement une façon de décrire nos données / parler de l'ensemble de la population. certains d'entre eux sont des mesures de tendance centrale et des mesures de dispersion

Les statistiques inférentielles sont des techniques qui nous permettent d'utiliser des échantillons pour faire des généralisations sur les populations à partir desquelles les échantillons ont été prélevés.

NURU MUSTEFA
la source
Bienvenue sur Cross Validated ! Veuillez prendre un moment pour voir notre visite . Il semble que vous étiez sur le point de terminer une bonne réponse, mais quelque chose s'est produit. n'hésitez pas à modifier votre réponse pour compléter votre réflexion. Vous pouvez également améliorer votre réponse en ajoutant des citations / références qui collaborent avec ce que vous avez mis ici. Vous devez également répondre à la question "Existe-t-il des exemples de statistiques inférentielles qui ne font pas de propositions sur les populations?"
Tavrock