Comment NE PAS utiliser les statistiques

15

C'est en quelque sorte une question ouverte mais je veux être clair. Étant donné une population suffisante, vous pourriez être en mesure d'apprendre quelque chose (c'est la partie ouverte), mais quoi que vous appreniez sur votre population, quand est-il jamais applicable à un membre de la population?

D'après ce que je comprends des statistiques, il n'est jamais applicable à un seul membre d'une population, cependant, trop souvent, je me retrouve dans une discussion où l'autre personne va "J'ai lu que 10% de la population mondiale a cette maladie" et continue à conclure que chaque dixième personne dans la pièce a cette maladie.

Je comprends que dix personnes dans cette salle ne sont pas un échantillon suffisamment grand pour que les statistiques soient pertinentes, mais apparemment beaucoup ne le font pas.

Ensuite, il y a cette chose à propos des échantillons assez grands . Il vous suffit de sonder une population suffisamment importante pour obtenir des statistiques fiables. Mais cela n'est-il pas proportionnel à la complexité de la statistique? Si je mesure quelque chose de très rare, cela ne signifie-t-il pas que j'ai besoin d'un échantillon beaucoup plus grand pour pouvoir déterminer la pertinence d'une telle statistique?

Le fait est que je remets vraiment en question la validité de tout journal ou article lorsque des statistiques sont impliquées, de la manière dont elles sont utilisées pour renforcer la confiance.

Voilà un peu de contexte.

Revenons à la question, de quelles manières ne pouvez-vous PAS ou ne pouvez-vous PAS utiliser des statistiques pour former un argument . J'ai rejeté la question parce que j'aimerais en savoir plus sur les idées fausses courantes concernant les statistiques.

John Leidegren
la source
2
Ce n'est qu'une réponse très partielle, donc je ne la publierai pas en tant que réponse. Vous avez raison de dire que les statistiques complexes nécessitent des populations plus importantes; vous faites référence au concept de "degrés de liberté", qui est simplement le nombre de variables indépendantes moins un. De plus, lorsque vous effectuez quelque chose comme un test p, votre seuil de rejet dépend du nombre de degrés de liberté en plus de la valeur p que vous avez choisie (généralement 0,05).
2
Si plus de gens lisent How to Tell the Liars des statisticiens de Hooke , il n'y aura peut-être pas autant de "ventouses statistiques" que nous en avons actuellement dans le monde.
JM n'est pas statisticien
1
Je pense que vous pourriez bénéficier de poser cette question sur stats stackexchange - J'ai signalé la question alors peut-être qu'elle sera déplacée là-bas.
InterestedGuest
Je ne savais même pas que nous avions un forum dédié à l'analyse statistique. Je déplacerais la question, si je savais comment ...

Réponses:

2

Pour tirer des conclusions sur un groupe en fonction de la population, le groupe doit être représentatif de la population et indépendant. D'autres en ont discuté, donc je ne m'attarderai pas sur cette pièce.

Une autre chose à considérer est la non-intuitivité des probabilités. Supposons que nous avons un groupe de 10 personnes indépendantes et représentatives de la population (échantillon aléatoire) et que nous savons que dans la population, 10% ont une caractéristique particulière. Par conséquent, chacune des 10 personnes a 10% de chances d'avoir la caractéristique. L'hypothèse courante est qu'il est assez certain qu'au moins 1 aura la caractéristique. Mais c'est un problème binomial simple, nous pouvons calculer la probabilité qu'aucun des 10 n'ait la caractéristique, il est d'environ 35% (converge à 1 / e pour un groupe plus grand / une probabilité plus petite), ce qui est beaucoup plus élevé que la plupart des gens ne le penseraient. Il y a également 26% de chances que 2 personnes ou plus aient la caractéristique.

Greg Snow
la source
9

À moins que les personnes présentes ne soient un échantillon aléatoire de la population mondiale, toute conclusion basée sur des statistiques sur la population mondiale sera très suspecte. Une personne sur cinq dans le monde est chinoise, mais aucun de mes cinq enfants n'est ...


la source
6
  1. Pour éviter l'application excessive des statistiques à de petits échantillons, je recommande de contrer avec des blagues bien connues ("Je suis tellement excitée, ma mère est à nouveau enceinte et mon bébé sera chinois." "Pourquoi?" "J'ai lu que chaque quatrième bébé est chinois. ").

  2. En fait, je recommande des blagues pour répondre à toutes sortes d'idées fausses dans les statistiques, voir http://xkcd.com/552/ pour la corrélation et la causalité.

  3. Le problème avec les articles de journaux est rarement le fait qu'ils traitent un phénomène rare.

  4. Le paradoxe de Simpsons vient à l'esprit comme exemple que les statistiques peuvent rarement être utilisées sans analyse des causes.

Phira
la source
2
La variation de la blague "bébé chinois" que j'ai entendue avait fait craindre à la future mère que son bébé puisse être considéré comme un étranger illégal et donc expulsé ...
JM n'est pas statisticien
3

Il y a un article intéressant de Mary Gray sur l'utilisation abusive des statistiques dans les affaires judiciaires et des choses comme ça ...

Gray, Mary W .; Statistiques et droit. Math. Mag. 56 (1983), no. 2, 67–81

Gerald Edgar
la source
1

Analyse statistique ou données statistiques?

Je pense que cet exemple dans votre question concerne des données statistiques: "J'ai lu que 10% de la population mondiale souffre de cette maladie". En d'autres termes, dans cet exemple, quelqu'un utilise des chiffres pour aider à communiquer la quantité plus efficacement que de simplement dire «beaucoup de gens».

Je suppose que la réponse à votre question est cachée dans la motivation de l'oratrice sur la raison pour laquelle elle utilise des chiffres. Cela pourrait être de mieux communiquer une notion ou cela pourrait être de montrer l'autorité ou cela pourrait éblouir l'auditeur. La bonne chose à propos des chiffres plutôt que de dire «très gros», c'est que les gens peuvent réfuter le nombre. Voir l'idée de Popper sur la réfutation.

b_dev
la source
0

UNE

UNEσ=c

UNEσ

UNE¬UNEσ

Raphael
la source
0

D'après ce que je comprends des statistiques, cela ne s'applique jamais à un seul membre d'une population

Ce n'est pas vrai. Cela dépend de l'application.

Exemple: la désintégration nucléaire en physique. Le taux de désintégration, définit la probabilité d'une désintégration de chaque noyau . Vous prenez n'importe quel noyau et il aura exactement la même probabilité de désintégration, que vous avez établie par expérimentation sur l'échantillon.

Aksakal
la source