Ma compréhension était que les statistiques descriptives décrivaient quantitativement les caractéristiques d'un échantillon de données, tandis que les statistiques inférentielles faisaient des inférences sur les populations dont les échantillons étaient tirés.
Cependant, la page wikipedia pour l'inférence statistique indique:
Pour l'essentiel, l'inférence statistique fait des propositions sur les populations, en utilisant des données tirées de la population d'intérêt via une certaine forme d'échantillonnage aléatoire.
Le «pour la plupart» m'a fait penser que je ne comprends peut-être pas correctement ces concepts. Existe-t-il des exemples de statistiques inférentielles qui ne font pas de propositions sur les populations?
terminology
descriptive-statistics
inference
user1205901 - Réintégrer Monica
la source
la source
Réponses:
Issu d'une formation en sciences du comportement, j'associe cette terminologie notamment aux manuels d'introduction à la statistique. Dans ce contexte, la distinction est que:
Le point important est que toute statistique, inférentielle ou descriptive, est fonction des données de l'échantillon. Un paramètre est une fonction de la population, où le terme population équivaut à dire le processus de génération de données sous-jacent.
De ce point de vue, le statut d'une fonction donnée des données en tant que statistique descriptive ou inférentielle dépend de l'objectif pour lequel vous l'utilisez.
Cela dit, certaines statistiques sont clairement plus utiles pour décrire les caractéristiques pertinentes des données, et certaines sont bien adaptées pour faciliter l'inférence.
Donc, de ce point de vue, les choses importantes à comprendre sont:
Ainsi, vous pouvez soit définir la distinction entre descriptif et déductif en fonction de l'intention du chercheur à l'aide de la statistique, soit définir une statistique en fonction de la manière dont elle est généralement utilisée.
la source
Une forme d'inférence est basée sur l'assignation aléatoire de traitements expérimentaux, et non sur un échantillonnage aléatoire d'une population (même hypothétique). Oscar Kempthorne était un partisan.
La prédiction est un autre domaine où vous ne formulez pas nécessairement des propositions sur les populations. (Je ne sais pas si tout le monde voudrait appeler la prédiction "inférence", mais il y a Geisser (1993), Inférence prédictive: une introduction ). Souvent, la prévision découle d'un modèle de population ajusté, mais pas toujours; Par exemple, l'exemple de classification de Matt, la moyenne du modèle (bayésien ou basé sur les poids d'Akaike) ou des algorithmes de prévision tels que le lissage exponentiel.
NB Je pense que les "statistiques inférentielles vs descriptives" se réfèrent plus souvent à la discipline Statistiques, plutôt qu'aux quantités calculées à partir d'échantillons. Il n'y a pas de différence essentielle entre une statistique inférentielle et descriptive; comme l'a souligné @ Jeremy, c'est une question d'utilisation à laquelle vous l'utilisez.
la source
Je ne suis pas sûr que la classification fasse nécessairement une déclaration sur la ou les populations à partir desquelles les points de données sont tirés. La classification, comme vous le savez probablement, utilise des données d'apprentissage constituées de quelques vecteurs «d'entités», chacun étiqueté avec une classe spécifique, pour prédire les étiquettes de classe appartenant à d'autres vecteurs d'entités non étiquetés. Par exemple, nous pouvons utiliser les signes vitaux d'un patient et le diagnostic d'un médecin pour prédire si d'autres patients sont en bonne santé ou malades.
Cependant, d'autres classificateurs recherchent les différences entre les classes sans modéliser les classes elles-mêmes; ce sont des classificateurs discriminants. Un exemple classique est le classificateur de voisin le plus proche, qui attribue un exemple sans étiquette à la classe de son voisin le plus proche (où close est défini d'une manière sensible pour le problème). Cela ne semble pas contenir beaucoup d'informations, le cas échéant, sur les populations à partir desquelles les points de données ont été tirés.
la source
Sur une ligne, compte tenu des données, les statistiques descriptives tentent de résumer le contenu de vos données avec un minimum de perte d'informations (selon la mesure que vous utilisez). Vous pouvez voir la géographie des données (quelque chose comme, voir le graphique des performances de la classe et dire qui est en haut, en bas, etc.)
Sur une ligne, compte tenu des données, vous essayez d'estimer et de déduire les propriétés de la population hypothétique dont les données proviennent. (Quelque chose comme, comprendre les élèves de 7e année grâce au bon échantillon de la classe, en supposant que la population sous-jacente est suffisamment grande pour que vous ne puissiez pas les prendre en compte dans leur totalité)
la source
En bref
Les statistiques descriptives sont l'analyse de données qui décrivent, montrent ou résument des données de manière significative; c'est simplement une façon de décrire nos données / parler de l'ensemble de la population. certains d'entre eux sont des mesures de tendance centrale et des mesures de dispersion
Les statistiques inférentielles sont des techniques qui nous permettent d'utiliser des échantillons pour faire des généralisations sur les populations dont les échantillons ont été tirés.
la source
les statistiques descriptives sont l'analyse de données qui décrivent, montrent ou résument des données de manière significative; c'est simplement une façon de décrire nos données / parler de l'ensemble de la population. certains d'entre eux sont des mesures de tendance centrale et des mesures de dispersion
Les statistiques inférentielles sont des techniques qui nous permettent d'utiliser des échantillons pour faire des généralisations sur les populations à partir desquelles les échantillons ont été prélevés.
la source