À quel point un groupe d'accidents d'avion est-il étrange?

15

Question originale (25/07/14): Cette citation des médias est-elle logique, ou existe-t-il une meilleure façon statistique de visualiser la série d'accidents d'avion récents?

Cependant, Barnett attire également l'attention sur la théorie de la distribution de Poisson, ce qui implique que les intervalles courts entre les accidents sont en fait plus probables que les longs.

"Supposons qu'il y ait en moyenne un accident mortel par an, ce qui signifie que le risque d'accident un jour donné est de un sur 365", explique Barnett. "S'il y a un crash le 1er août, la chance que le prochain crash se produise un jour plus tard le 2 août est 1/365. Mais la chance que le prochain crash soit le 3 août est (364/365) x (1/365) , car le prochain crash ne se produit le 3 août que s'il n'y a pas de crash le 2 août. "

"Cela semble contre-intuitif, mais la conclusion découle sans relâche des lois de la probabilité", dit Barnett.

Source: http://www.bbc.com/news/magazine-28481060

Clarification (27/07/14): Ce qui est contre-intuitif (pour moi), c'est que les événements rares ont tendance à se produire dans le temps. Intuitivement, je pense que des événements rares ne se produiraient pas à temps. Quelqu'un peut-il m'indiquer une distribution théorique ou empirique attendue du temps entre les événements sous les hypothèses d'une distribution de Poisson? (C'est-à-dire un histogramme où l'axe des ordonnées est la fréquence ou la probabilité et l'axe des abscisses le temps entre 2 occurrences consécutives regroupées en jours, semaines, mois ou années, etc.) Merci.

Clarification (28/07/14): Le titre laisse entendre qu'il est plus susceptible d'avoir des grappes d'accidents que des accidents largement espacés. Permet de rendre cela opérationnel. Disons qu'un cluster est composé de 3 accidents d'avion, qu'une courte période de temps est de 3 mois et une longue période de temps de 3 ans. Il semble illogique de penser qu'il y a une probabilité plus élevée que 3 accidents se produisent dans une période de 3 mois que dans une période de 3 ans. Même si nous considérons le premier accident comme acquis, il est illogique de penser que 2 autres accidents se produiront au cours des 3 prochains mois par rapport aux 3 prochaines années. Si cela est vrai, alors le titre des médias est trompeur et incorrect. Suis-je en train de manquer quelque chose?

Joel W.
la source
1
Concernant la clarification: vous pourriez trouver utile de faire la distinction entre la probabilité , la probabilité par unité de temps et l' attente . Bien que les processus décrivant des événements rares aient - pratiquement au sens même de «rare» - un long délai attendu entre les événements, cela n'est pas incompatible avec la probabilité par unité de temps d' être la plus élevée au départ. Néanmoins, la probabilité que l'événement se produise dans un court laps de temps sera très faible.
whuber
2
De plus, je viens de remarquer cet article Wikipedia - vous pourriez l'aimer. Oh, et je viens de tomber sur ce pdf aussi - il mentionne spécifiquement le "clustering" des accidents d'avion (et décrit le problème beaucoup mieux que je ne l'ai fait jusqu'à présent ...).
Steve S
1
@Glen_b: La faille dans l'article de journal (implicite dans le titre de l'article, qui est le titre de mon message) est que l'article suggère qu'il y a une plus grande probabilité qu'un nombre donné (c'est-à-dire un groupe) d'accidents se produise dans une courte période de temps que sur une plus longue période de temps. C'est tout simplement faux.
Joel
1
@JoelW .: Si quoi que ce soit, ce serait le journaliste qui a foiré ... Quoi qu'il en soit, tout est éclairci ou avez-vous encore des réserves?
Steve S
1
Je suppose que c'est le statisticien qui a induit le journaliste en erreur. Je doute que le journaliste se soit trompé de lui-même (parce que c'est tellement contre-intuitif).
Joel W.

Réponses:

3

Résumé: La première phrase du paragraphe cité de la BBC est bâclée et trompeuse.

Même si les réponses et commentaires précédents ont déjà fourni une excellente discussion, j'estime que la question principale n'a pas reçu de réponse satisfaisante.

Donc , supposons que la probabilité d'un accident d'avion un jour donné est et que les accidents sont indépendants les uns des autres. Supposons en outre qu'un avion s'est écrasé le 1er janvier. Quand le prochain avion s'écraserait-il?p=1/365

Eh bien, faisons une simulation simple: pour chaque jour des trois prochaines années, je déciderai au hasard si un autre avion s'est écrasé avec la probabilité et je noterai le jour du prochain accident; Je vais répéter cette procédure 100p fois. Voici l'histogramme résultant:100000

Distribution d'écrasements d'avion, un modèle

Pr(t)=(1-p)tpt

0,27%0,10%

0,8%94% C'est pourquoi, même avec une distribution de probabilité décroissante de façon monotone, il est sûrement possible que des "grappes" (par exemple, deux accidents d'avion en trois jours) soient très improbables.

Voici un autre histogramme pour vraiment faire passer ce point. Il s'agit simplement d'une somme de l'histogramme précédent sur plusieurs périodes non croisées:

Histogramme de la fréquence des écrasements d'avion

amibe dit réintégrer Monica
la source
Voulez-vous dire que le professeur du MIT a tort?
Steve S
1
Non, la citation de Barnett dans l'article de la BBC est complètement correcte. Mais son interprétation par le journaliste de la BBC est au mieux bâclée: "Barnett attire également l'attention sur la théorie de la distribution de Poisson, ce qui implique que les intervalles courts entre les accidents sont en fait plus probables que les longs" . L'interprétation la plus naturelle de cette phrase est complètement fausse (et je suppose que Barnett ne voulait pas le laisser entendre). Je devrais peut-être être plus explicite à ce sujet dans ma réponse. Y a-t-il une partie substantielle de ma réponse avec laquelle vous n'êtes pas d'accord? J'espère que non, car je suis entièrement d'accord avec le vôtre.
amibe dit Réintégrer Monica
13

Ce que le journaliste dit, c'est que l'occurrence aléatoire d'un accident d'avion peut être modélisée comme processus de Poisson - une situation où la probabilité qu'un événement se produise sur un (petit) intervalle soit proportionnelle à la longueur dudit intervalle et où chaque occurrence en Indépendant de tous les autres.

Est-ce un modèle raisonnable pour le scénario décrit?

Probablement.

Bien sûr, ces événements pourraient ne pas être indépendants à 100%, car d'autres pilotes modifient probablement leur comportement (ne serait-ce que très légèrement) après un accident. [Je ne sais pas - peut-être que quelques pilotes font une formation supplémentaire sur simulateur ou quelque chose comme ça]. Néanmoins, l'hypothèse de indépendance est toujours tout à fait raisonnable.

Qu'en est-il des grappes d'accidents d'avion?

Oui. Étant donné un processus de Poisson (ou même un autre processus aléatoire), vous voulez attendre à voir quelques grappes d'occurrences.

En fait, comme décrit par le Oxford Dictionary of Statistics dans son entrée pour Poisson Process (qui est une "description mathématique du caractère aléatoire"):

[R]andomness usually gives rise to apparent clustering, despite the natural
expectation that randomness would lead to regularity.

Par exemple, consultez ce simple morceau de code R :

set.seed(123)
x <- runif(500)
y <- runif(500)

plot(x, y, pch=20, col='blue', main="A Random Distribution of Points")

qui produit:
Remarquez l'agglutination?

Même si nous savons qu'il s'agit d'un tracé de points aléatoires, il semble qu'il y ait des bits non aléatoires - en particulier, dans certaines parties du graphique, il y a des blocs de points tandis que d'autres parties sont grandes ouvertes. C'est ce même type de comportement que l'article essaie de décrire (uniquement avec des données de séries chronologiques et non des données spatiales ).


MISE À JOUR:

@JoelW .: Donc, par exemple, disons que la probabilité qu'un avion s'écrase demain (ou n'importe quel jour d'ailleurs) est " p " (et, disons " p " est quelque chose comme 1 sur cent).

La raison pour laquelle le prochain accident d'avion est plus susceptible de se produire demain que dans un an exactement (c.-à-d. Le 26 juillet 2015 ) est que la probabilité que le prochain accident se produise dans exactement un an est égale à:

= Prob(crash tomorrow) * Prob(365 days with *no* crashes)

Ça a du sens?

En fin de compte, je pense que la raison pour laquelle ces choses sont contre-intuitif est parce que généralement quand on pense à une phrase comme: "The odds of a plane crash in one month compared with the odds of one happening tomorrow". Naturellement, nous ne considérons pas immédiatement la période de 24 heures qui commence dans exactement un mois. Au lieu de cela, nous (ou du moins je le fais) avons tendance à y penser de manière plus, eh bien, de manière flexible . Donc plus comme: a month ± a week. Cela et le fait que nous oublions de prendre en compte les chances d'un crash qui ne se produit pas dans l'intervalle ... (Mais encore une fois, c'est peut-être juste moi ...).

Phew!


Ressources supplémentaires:

  • Article de Wikipedia sur l' illusion de clustering
  • Un pdf qui mentionne spécifiquement le "clustering" des accidents d'avion (à la page 8) et décrit brièvement les mathématiques d'un processus de Poisson .
Steve S
la source
1
@Joel W .: En fait, je devrais ajouter plus à cette réponse - donnez-moi quelques minutes pour éditer ...
Steve S
7
L'argument pour retarder le voyage est le même que celui apparaissant dans la vieille blague sur la façon dont la TSA a trouvé un statisticien avec une bombe à bord d'un avion. Lorsqu'on lui a demandé de s'expliquer, le statisticien a dit : « Eh bien, les chances d'une personne ayant une bombe sont petites mais pas assez petit pour le confort, mais les chances de deux personnes ayant une bombe sont infinitésimales. Par conséquent , lorsque j'apporter une bombe, il y a il n'y a presque aucune chance qu'il y ait deux bombes et nous serons parfaitement en sécurité. "
whuber
1
Votre blague est sur le point, @whuber, mais il semble y avoir une sorte de déconnexion logique entre dire que "les intervalles courts entre les accidents sont en fait plus probables que les longs" et dire que la probabilité d'un accident demain est indépendante de savoir si un accident eu lieu aujourd'hui. Je suppose que la probabilité peut être contre-intuitive.
Joel
1
Ce qui est contre-intuitif (pour moi), c'est que les événements rares ont tendance à se produire dans le temps. Intuitivement, je pense que des événements rares ne se produiraient pas à temps. Suis-je le seul à avoir cette vue intuitive?
Joel W.
1
@Steve S: Merci pour le lien. À quoi ressemblerait la distribution exponentielle de la valeur supposée dans l'article de presse (1/365)? Dans tous les cas, la distribution exponentielle ne traite peut-être pas le titre de l'article, ce qui implique une comparaison de la probabilité qu'un certain nombre d'événements se produisent dans un court laps de temps avec la probabilité que ce nombre d'événements se produise dans un long laps de temps .
Joel
4

Si le nombre d'accidents d'avion est distribué par Poisson (comme il semble le dire), le temps entre les accidents a une distribution exponentielle. Le pdf de la distribution exponentielle est une fonction monotone décroissante du temps. Par conséquent, les plantages antérieurs sont plus susceptibles que les plantages ultérieurs.

Sid
la source
"les intervalles courts entre les accidents sont en fait plus probables que les longs" En quoi est-ce différent de dire que s'il y a juste eu un accident d'avion, nous devrions tous retarder notre prochain voyage (pour des raisons statistiques)?
Joel W.
2
Joel, Cette citation n'a aucun sens jusqu'à ce que son auteur quantifie ce que l'on entend par "court" et "long". Dans son exemple d'un événement avec un taux prévu de un par an, la probabilité d'une récidive au cours du mois suivant sera encore bien inférieure à la probabilité que le prochain crash se produise plus d'un an plus tard. Ce qu'il aurait pu signifier, c'est que la probabilité par unité de temps est plus élevée à court terme qu'à long terme. Pour comparer les probabilités réelles, vous devez multiplier la probabilité par unité de temps par la durée (techniquement, vous devez l'intégrer sur la durée).
whuber
@whuber: Le titre parle de la probabilité d'un groupe d'accidents d'avion. Jusqu'à présent, rien de ce qui a été dit sur stackexchange ne m'a convaincu qu'un groupe d'accidents d'avion est plus courant ou plus probable que des accidents d'avion largement espacés. Ainsi, il me semble que la citation des médias d'information est carrément trompeuse (peut-être parce que les intervalles de temps ne sont pas identifiés, comme vous l'avez écrit). Qu'est-ce que tu penses?
Joel W.
Je ne sais pas ce que vous entendez par «accidents d'avion largement espacés» et, d'ailleurs, je ne suis pas sûr de ce que vous entendez par «groupe». Supposons que, pour concrétiser la situation, une série d'événements rares se produisent au cours des années 0, 10, 11, 12 et 22 (à partir d'une date initiale). Combien d'événements exactement "largement espacés" se sont produits? Combien de "clusters" se sont produits? Je peux trouver des réponses défendables à la première question allant de zéro à dix et les réponses à la deuxième question pourraient être zéro ou un.
whuber
1
@whuber: Le titre laisse entendre qu'il est plus susceptible d'avoir des grappes d'accidents que des accidents largement espacés. Permet de rendre cela opérationnel. Disons qu'un cluster est composé de 3 accidents d'avion et qu'une courte période de temps est de 3 mois et une longue période de temps de 3 ans. Il semble illogique de penser qu'il y a une probabilité plus élevée que 3 accidents se produisent dans une période de 3 mois que dans une période de 3 ans. Même si nous considérons le premier accident comme acquis, il est illogique de penser que 2 autres accidents se produiront au cours des 3 prochains mois par rapport aux 3 prochaines années.
Joel W.
0

Les autres réponses ont déjà traité du degré d' indépendance événements se regroupent. (Lire le chaos de Gleick, il y a toutes ces années, m'a ouvert les yeux sur cette idée.)

Mais, en fait, il existe des preuves solides que les accidents d'avion ne sont pas des événements indépendants. L'influence de Cialdini a un très bon chapitre à ce sujet (également mentionné ici qui a quelques liens vers des données; et j'ai trouvé un extrait de cette partie du livre ). Évidemment, cela est très controversé: il dit essentiellement que plus un accident d'avion est médiatisé, plus il est probable qu'il influence un pilote (consciemment ou inconsciemment) à écraser son avion. Mais les explications psychologiques qui sous-tendent l'hypothèse semblent plausibles et les données semblent également la soutenir.

(Des liens vers des recherches de démystification basées sur des statistiques seraient les bienvenus dans les commentaires.)

Darren Cook
la source
Ne dit pas cela: dit "immédiatement après certains types d'histoires de suicide très médiatisées, le nombre de personnes décédées dans des accidents de compagnies aériennes commerciales augmente".
Scortchi - Réintégrer Monica
La référence pour la réclamation est, je pense, Phillips, (1978) "Les décès d'accidents d'avion augmentent juste après les articles de journaux sur le meurtre et le suicide", Science , 201 , pp 748-750. L'abrégé fait référence aux "avions privés, d'affaires et de direction".
Scortchi - Réintégrer Monica
Ou peut-être celui-ci: Phillips (1980), "Accidents d'avion, meurtre et mass médias: vers une théorie de l'imitation et de la suggestion", Social Forces , 58 , 4, où les "compagnies aériennes" sont mentionnées dans l'abstrait.
Scortchi - Réintégrer Monica
2
Altheide (1981), Social Forces , 60 , 2 suggère qu'un "certain type d'histoire de suicide très médiatisée" peut ne pas avoir été défini de manière totalement indépendante des "accidents d'avion" ultérieurs - sonne plutôt comme la définition de "rabbin célèbre" .
Scortchi - Réintégrer Monica