Pouvez-vous dire que les statistiques et les probabilités sont comme l'induction et la déduction?

17

J'ai lu ce fil et il me semble que l'on peut dire que:

  • statistiques = induction?
  • probabilité = déduction?

Mais je me demande s'il pourrait y avoir plus de détails sur la comparaison qui me manque. Par exemple, les statistiques sont-elles égales à l'induction, ou s'agit-il simplement d'un cas particulier? Il semble que la probabilité soit un sous-cas de déduction (puisqu'il s'agit d'un sous-cas de pensée mathématique).

Je sais que c'est une question difficile, mais dans un sens, c'est pourquoi je la pose - parce que je veux être sûr de la façon dont ces termes peuvent être comparés avec précision.

Tal Galili
la source
Pas parce qu'il répond à votre question mais parce qu'ils sont connectés: stats.stackexchange.com/questions/665/… (j'aime vraiment la réponse de Mark / Peter) et stats.stackexchange.com/questions/2641/…
robin girard

Réponses:

15

Je pense qu'il est préférable de récapituler rapidement le sens du raisonnement inductif et déductif avant de répondre à votre question.

  • Raisonnement déductif: "Les arguments déductifs sont des tentatives pour montrer qu'une conclusion découle nécessairement d'un ensemble de prémisses. Un argument déductif est valide si la conclusion découle nécessairement des prémisses, c'est-à-dire si la conclusion doit être vraie à condition que les prémisses soient vraies Un argument déductif est valable s'il est valide et si ses prémisses sont vraies. Les arguments déductifs sont valides ou invalides, solides ou non, mais ne sont jamais faux ou vrais. " ( cité de wikipedia , souligné par nous).

  • "Le raisonnement inductif, également appelé induction ou logique inductive, ou supposition éclairée en anglais familier, est une sorte de raisonnement qui permet de conclure que la conclusion est fausse même lorsque toutes les prémisses sont vraies. Les prémisses d'un argument logique inductif indiquent un certain degré de soutien (probabilité inductive) pour la conclusion mais ne l'entraînent pas, c'est-à-dire qu'ils n'assurent pas sa vérité. "( tiré de wikipedia , je souligne)

Pour souligner la principale différence: alors que le raisonnement déductif transfère la vérité des prémisses aux conclusions, le raisonnement inductif ne le fait pas. C'est-à-dire que, pour le raisonnement déductif, vous n'élargissez jamais vos connaissances (c'est-à-dire que tout est dans les locaux, mais parfois caché et doit être démontré via des preuves), le raisonnement inductif vous permet d'élargir vos connaissances (c'est-à-dire que vous pouvez acquérir de nouvelles connaissances qui ne sont pas déjà contenus dans les locaux, au prix de ne pas connaître leur vérité).

Quel est le lien avec les probabilités et les statistiques?

À mes yeux, la probabilité est nécessairement déductive. C'est une branche des mathématiques. Donc, sur la base de certains axiomes ou idées (prétendument vrais), il déduit des théories.

Cependant, les statistiques ne sont pas nécessairement inductives. Seulement si vous essayez de l'utiliser pour générer des connaissances sur des entités non observées (c'est-à-dire pour rechercher des statistiques inférentielles, voir également la réponse de onestop). Cependant, si vous utilisez des statistiques pour décrire l'échantillon (c.-à-d. Des statistiques de décryptage) ou si vous échantillonnez toute la population, c'est toujours déductif car vous n'obtenez plus de connaissances ou d'informations car elles sont déjà présentes dans l'échantillon.

Donc, si vous pensez que la statistique est l'effort héroïque de scientifiques essayant d'utiliser des méthodes mathématiques pour trouver des régularités qui régissent l'interaction des entités empiriques dans le monde, ce qui n'est en fait jamais réussi (c.-à-d., Nous ne saurons jamais vraiment s'il en existe de nos théories est vraie), alors, oui, c'est l'induction. C'est aussi la méthode scientifique telle qu'exprimée par Francis Bacon, sur laquelle se fonde la science empirique moderne. La méthode conduit à des conclusions inductives qui sont au mieux hautement probables, mais pas certaines. Cela conduit à son tour à un malentendu parmi les non-scientifiques sur le sens d'une théorie scientifique et d'une preuve scientifique.


Mise à jour: Après avoir lu la réponse de Conjugate Prior (et après quelques réflexions du jour au lendemain), je voudrais ajouter quelque chose. Je pense que la question de savoir si le raisonnement statistique (inférentiel) est déductif ou inductif dépend de ce qui vous intéresse exactement, c'est-à-dire du type de conclusion que vous recherchez.

Si vous êtes intéressé par des conclusions probabilistes, le raisonnement statistique est alors déductif. Cela signifie que si vous voulez savoir si, par exemple, dans 95 cas sur 100, la valeur de la population se situe dans un certain intervalle (c'est-à-dire un intervalle de confiance), alors vous pouvez obtenir une valeur de vérité (vraie ou non vraie) pour cette déclaration. Vous pouvez dire (si les hypothèses sont vraies) qu'il est vrai que dans 95 cas sur 100, la valeur de la population se situe dans l'intervalle. Cependant, dans aucun cas empirique, vous ne saurez si la valeur de la population est dans votre IC obtenu. Que ce soit ou non, mais il n'y a aucun moyen d'en être sûr. Le même raisonnement s'applique aux probabilités dans les statistiques p-valeur classiques et bayésiennes. Vous pouvez être sûr des probabilités.

Cependant, si vous êtes intéressé par des conclusions sur des entités empiriques (par exemple, où est la valeur de la population), vous ne pouvez qu'arguer l'induction. Vous pouvez utiliser toutes les méthodes statistiques disponibles pour accumuler des preuves qui soutiennent certaines propositions concernant les entités empiriques ou les mécanismes de causalité avec lesquels elles interagissent. Mais vous ne serez jamais certain de l'une de ces propositions.

Pour récapituler: Le point que je veux souligner est qu'il est important de savoir ce que vous cherchez. Vous pouvez en déduire des probabilités, mais pour chaque proposition définitive sur les choses, vous ne pouvez que trouver des preuves en faveur. Pas plus. Voir aussi le lien de onestop au problème d'induction.

Henrik
la source
Merci Henrik - la distinction entre les définitions (et vos réflexions à leur sujet) a été utile.
Tal Galili
Votre mise à jour était claire et précise. Si je pouvais vous en donner un autre (+1), je le ferais.
Tal Galili
7

La statistique est l'approche déductive de l'induction. Considérez les deux principales approches de l'inférence statistique: Frequentist et Bayesian.

Supposons que vous êtes un Frequentist (dans le style de Fisher, plutôt que Neyman pour plus de commodité). Vous vous demandez si un paramètre d'intérêt substantiel prend une valeur particulière, alors vous construisez un modèle, choisissez une statistique relative au paramètre et effectuez un test. La valeur de p générée par votre test indique la probabilité de voir une statistique aussi ou plus extrême que la statistique calculée à partir de l'échantillon que vous avez, en supposant que votre modèle est correct. Vous obtenez une valeur de p suffisamment petite pour rejeter l'hypothèse que le paramètre prend cette valeur. Votre raisonnement est déductif: en supposant que le modèle est correct, soit le paramètre prend vraiment la valeur d'un intérêt substantiel mais le vôtre est un échantillon peu probable à voir, ou il ne prend pas en fait cette valeur.

Passer du test d'hypothèse aux intervalles de confiance: vous avez un intervalle de confiance à 95% pour votre paramètre qui ne contient pas la valeur d'intérêt substantiel. Votre raisonnement est à nouveau déductif: en supposant que le modèle est correct, c'est l'un de ces rares intervalles qui apparaîtra 1 fois sur 20 lorsque le paramètre a vraiment la valeur d'un intérêt substantiel (parce que votre échantillon est peu probable), ou le Le paramètre n'a en fait pas cette valeur.

Supposons maintenant que vous êtes un Bayésien (dans le style de Laplace plutôt que de Gelman). Les hypothèses et calculs de votre modèle vous donnent une distribution de probabilité (postérieure) sur la valeur du paramètre. La majeure partie de la masse de cette distribution est loin de la valeur d'intérêt substantiel, vous concluez donc que le paramètre n'a probablement pas cette valeur. Votre raisonnement est à nouveau déductif: en supposant que votre modèle est correct et si la distribution antérieure représentait vos croyances sur le paramètre, alors vos croyances à ce sujet à la lumière des données sont décrites par votre distribution postérieure qui met très peu de probabilité sur cette valeur. Étant donné que cette distribution offre peu de support pour la valeur de l'intérêt substantiel, vous pourriez conclure que le paramètre n'a pas en fait la valeur. (Ou vous pourriez vous contenter d'indiquer la probabilité qu'il le fasse).

Dans les trois cas, vous obtenez une disjonction logique sur laquelle baser votre action, qui est déduite de manière déductive / mathématique des hypothèses. Ces hypothèses concernent généralement un modèle de génération des données, mais peuvent également être des croyances antérieures concernant d'autres quantités.

conjugateprior
la source
1
Merci Cp, vous faites une remarque intéressante. Bien que, du point de vue de la réponse d'Henrik ci-dessus, vous êtes toujours dans le domaine de l'induction, car le raisonnement statistique que vous décrivez est celui qui implique l'incertitude.
Tal Galili
Veuillez consulter la mise à jour (espérons-le compréhensible) de ma réponse, où j'essaie de résoudre le problème soulevé ici.
Henrik
@Henrik C'est plus clair (du moins pour moi). Juste un petit truc: ce n'est pas tout à fait le cas que "le même raisonnement s'applique aux probabilités dans les statistiques p-valeur classiques et bayésiennes". Ce dernier va vous donner des probabilités d'un seul événement, par exemple , la probabilité que la moyenne réelle se situe entre une valeur et une autre valeur (bien que vos autres mises en garde appliquent tous) alors que les méthodes fréquentistes « classiques » tels que les intervalles de confiance même pas le faire, malgré la espoir affectueux et répandu qu'ils le font. Leur interprétation est en effet telle que vous la décrivez.
conjugateprior
3

Oui! Peut-être que les statistiques ne sont pas strictement égales à l'induction, mais les statistiques sont la solution au problème de l'induction à mon avis.

un arrêt
la source