La statistique la plus importante: «90% de toutes les femmes ont survécu» ou «90% de toutes celles qui ont survécu étaient des femmes»?

14

Considérez les déclarations suivantes par le Titanic:

Hypothèse 1: seuls des hommes et des femmes étaient à bord

Hypothèse 2: il y avait un grand nombre d'hommes et de femmes

Énoncé 1: 90% de toutes les femmes ont survécu

Énoncé 2: 90% de tous ceux qui ont survécu étaient des femmes

Le premier indique que sauver les femmes était probablement hautement prioritaire (indépendamment du fait que ce soit ou non des hommes)

Quand la deuxième statistique est-elle utile?

Peut-on dire que l'un d'eux est presque toujours plus utile que l'autre?

rahs
la source
40
plus utile dans quel but?
Aksakal presque sûrement binaire
12
Surpris aucune de ces réponses n'a mentionné le Paradoxe de Simpson
Nemo
3
Je dirais que cela dépend si vous êtes une femme ou non!
meh
6
La première affirmation n'a pas de sens sans une statistique comparable pour les hommes.
Barmar
1
@RahulSaha Mais si 95% des hommes survivaient, cela pourrait impliquer qu'ils accordaient une priorité encore plus élevée aux hommes. C'est pourquoi une comparaison est nécessaire.
Barmar

Réponses:

54

En l'état, aucun des énoncés 1 ou 2 n'est très utile. Si 90% des passagers étaient des femmes et 90% des personnes ont survécu au hasard, alors les deux affirmations seraient vraies. Les déclarations doivent être considérées dans le contexte de la composition globale des passagers. Et la chance globale de survivre.


Supposons que nous ayons autant d'hommes que de femmes, 100 chacun. Voici quelques matrices possibles d'hommes (M) contre des femmes (W) et de survivants (S) contre des morts (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% des femmes ont survécu. Comme 90% des hommes. La déclaration 1 est vraie, la déclaration 2 est fausse, car la moitié des survivants étaient des femmes. Ceci est cohérent avec de nombreux survivants, mais aucune différence entre les sexes .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90% des femmes ont survécu, mais seulement 10% des hommes. 90% des survivants étaient des femmes. Les deux affirmations sont vraies. Cela correspond à une différence entre les sexes : les femmes étaient plus susceptibles de survivre que les hommes.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

9% des femmes ont survécu, mais seulement 1% des hommes. 90% des survivants étaient des femmes. L'énoncé 1 est faux, l'énoncé 2 est vrai. Cela est à nouveau cohérent avec une différence entre les sexes : les femmes étaient plus susceptibles de survivre que les hommes.

Stephan Kolassa
la source
3
(or indeed, if *everyone* survived)... Si tout le monde a survécu, 100% de toutes les femmes ont survécu, quelles que soient les proportions.
Bridgeburners
1
@Bridgeburners: vous avez tout à fait raison, et ça m'a frappé quand j'étais loin de mon ordinateur. Merci, j'ai édité ma réponse.
Stephan Kolassa
18

À première vue, la probabilité conditionnelle de survie conditionnelle au sexe est plus utile, simplement en raison de la direction du flux d'information. Le sexe d'une personne est connu avant son statut de survie, et cette probabilité peut être utilisée dans un sens prédictif, de manière prospective. De plus, il n'est pas influencé par la prévalence des femmes. En cas de doute, pensez à la prédiction.

Frank Harrell
la source
Oui, à première vue. Donc, juste pour m'assurer que je comprends comment cela s'applique aux statistiques en question ... vous dites que la déclaration # 1 est utile parce qu'elle me dit que si je suis une femme, à bord d'un grand paquebot en 1912 qui arrive à couler dans des eaux infestées d'icebergs, alors les chances de survie sont de 90%? Et, en ajoutant l'hypothèse raisonnable que la technologie et les pratiques de sauvetage se sont améliorées depuis, cela voudrait-il dire que les chances pour moi de survivre à une telle situation aujourd'hui sont probablement encore meilleures que 90%? Cool! ;-)
Don Hatch
Ces commentaires à vendre au-delà de l'objectif descriptif d'origine.
Frank Harrell
Êtes-vous sûr que vous avez le bon objectif? La question est, apparemment, de l'utilité de ces déclarations sur le vrai Titanic, qui, en réalité, ne sont pas du tout utiles pour faire des prédictions, car tant de choses ont changé depuis. Il semble donc que votre heuristique ait échoué sur le premier véritable exemple qui lui a été lancé, n'est-ce pas? Cela ne semble pas être un bon début. D'autre part, peut - être l'OP voulait que la question du Titanic à un proxy pour la question générale de la même forme appliquée aux scénarios actuels qui faire avoir une pertinence prédictive; Je ne sais pas.
Don Hatch
1
Tout comme j'ai une étude de cas détaillée sur les probabilités de survie des passagers TItanic dans mon livre Regression Modeling Strategies , il est très utile de découvrir ce qui s'est passé. Je n'utilise pas les probabilités prédites à partir de ce modèle logistique pour prédire les futurs Titanics mais plutôt pour découvrir des modèles dans le processus de sélection des canots de sauvetage.
Frank Harrell
6

Le premier indique que sauver les femmes était probablement hautement prioritaire (indépendamment du fait que ce soit ou non des hommes)

Le mot «priorité» vient du latin pour «avant». Une priorité est quelque chose qui vient avant quelque chose d'autre (où "avant" est utilisé dans le sens de "plus important"). Si vous dites que sauver les femmes était une priorité, alors sauver les femmes doit passer avant autre chose. Et l'hypothèse naturelle est que ce qui précède est de sauver les hommes. Si vous dites "indépendamment du fait de savoir si sauver les hommes était", alors nous nous demandons ce que cela a été avant.

Que les femmes aient un taux de survie élevé ne dit pas grand-chose, si nous ne savons pas quel était le taux de survie général. Le dernier navire sur lequel j'étais, plus de 90% des femmes ont survécu, mais je ne qualifierais pas cela de montrer que sauver les femmes était une priorité.

Et savoir quel pourcentage de survivantes étaient des femmes ne dit pas grand-chose sans savoir quel pourcentage de personnes dans l'ensemble étaient des femmes.

La statistique la plus utile dépend vraiment de la situation. Si vous voulez savoir à quel point quelque chose est dangereux, le taux de mortalité est plus important. Si vous voulez savoir ce qui affecte la dangerosité de quelque chose, alors la répartition en pourcentage des victimes est importante.

Accumulation
la source
2
Belle critique :-) "Le dernier navire sur lequel j'étais, plus de 90% des femmes ont survécu, mais je ne qualifierais pas cela de montrer que sauver les femmes était une priorité." Bien sûr que c'est le cas .. haute priorité par rapport au fait de les jeter par dessus bord! Bien sûr, c'est une interprétation absurde de «haute priorité», mais puisque le PO a exclu l'interprétation «plus prioritaire que sauver les hommes», il ne nous reste que des interprétations absurdes.
Don Hatch
3

Il est peut-être utile pour nous d'examiner comment ces probabilités sont liées.

Laisser l'événement où une personne est une femme, et soit SWS l'événement où une personne a survécu.

Énoncé 1:

P(S|W)=0.9

Énoncé 2:

P(W|S)=0.9

Le théorème de Bayes illustre comment ces énoncés de probabilité sont liés.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W) (la proportion de femmes sur le Titanic) sont assez faciles à rechercher, et donc les probabilités dépendent les unes des autres. C'est-à-dire que la connaissance de l'un définit pleinement l'autre.

P(S)P(W)

knrumsey
la source
3
Je dirais également, à l'inverse de votre conclusion, que si ni P (S) ni P (W) n'est connu, alors P (S | W) et P (W | S) souffrent du même manque d'utilité frustrant. Je n'ai pas encore une idée claire dans mon esprit de ce qui peut être dit si exactement l'un de P (S) et P (W) est connu.
Don Hatch
P(W)=0.5
1
Oui, cela semble juste, et le verdict semble être que les informations sont terriblement insuffisantes même compte tenu de cela. Je dois dire que chaque fois que je commence à penser aux informations que je peux extraire de juste P (W | S) ou juste P (S | W), même en ajoutant P (W) ou autre, je finis par penser "pourquoi diable suis-je Je pense à cela? Pourquoi ne m'ont-ils donné que ces pourcentages? Montrez-moi tout le tableau ".
Don Hatch
3

Cela dépend de ce que l'on considère utile.

P(S|W)>P(S|M) , alors les deux déclarations sont également inutiles sans plus d'informations, comme l'ont déjà dit @StephanKolassa et @knrumsey dans leurs réponses. Si quelqu'un veut exprimer ce type d'informations, il devra dire autre chose que la déclaration 1, comme "90% des femmes ont survécu, mais seulement 20% des hommes ont survécu".

D'un autre côté, si vous vous demandez pourquoi les histoires de survivants proviennent principalement de femmes, la déclaration 2 expliquerait cela, rendant la déclaration 2 utile même en l'absence d'autres informations.

Je ne vois rien d'énoncé 1 qui soit utile hors contexte. Cela ne dit certainement rien sur la priorité accordée à la sauvegarde des femmes, par rapport à toute autre chose. La seule chose que l'énoncé 1 fait pour moi, c'est qu'il me fait dire "dis m'en plus".

Don Hatch
la source
0

En surface (ou isolément de la réalité), les deux déclarations semblent également inutiles pour l'objectif de l'État. Cependant, compte tenu du contexte, la deuxième déclaration est clairement plus utile.

Énoncé 2

w

w=pX/(pX+(1-p)z)
p - proportion de femmes parmi les passagers, X et zsont les probabilités de survie des femmes et des hommes. Le dénominateur est le taux de survie total.

Nous testons l'hypo H0:X>z

Réécrivons l'équation pour obtenir les conditions nécessaires à H0:

(1-w)pX=w(1-p)z
x=w(1p)z/((1w)p)
For H0 to hold we have:
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

So, for your hypo that women were more likely to survive, all you need is to check that there were less than 90% women among the passengers. This is consistent with your assumption 2, which seems to imply that p1/2. Hence, I declare that statement 2 all but asserts that women were more likely to survive, i.e. it's quite useful for your goal.

Statement 1

The first statement is truly useless in isolation, but has a limited use in the context. If we pretend we know nothing about the event, then saying that x=0.9 tells us nothing about z, and whether x>z?

However, from that little that I know about the event - I haven't seen the movie - it seems unlikely that xz. Why?

We know from Assumption 2 that p1/2, so the total survival rate is px+(1p)z. If we assume that xz and p1/2 we get

px+(1p)zx=0.9
In other words 90% of all passengers survived, which doesn't ring true to me. Would they make a movie and talk about it for 100 years if 90% of passengers survived? So, it must be that x>>z and less than half of passengers made it.

Conclusion

I'd say that both statements support your hypo that women were more likely to survive than men, but Statement 1 does so rather weakly, while Statement 2 in combination with assumptions almost surely establishes your hypo as a fact.

Aksakal almost surely binary
la source