Analyse statistique des aigles en voie de disparition

8

Résumé du sort des balises par modèle de balise

Des aigles marqués par satellite disparaissent en Écosse, et le tableau ci-dessus montre le sort des balises par modèle de balise. Je suis particulièrement intéressé par ces étiquettes qui sont «arrêtées - pas de dysfonctionnement», car il est possible que ces oiseaux soient également tués et que les corps et les étiquettes soient jetés.

J'ai vu que ce tableau et ce tableau seul prouvent que "Même avec l'analyse statistique la plus éloignée, il est clair qu'il existe des relations entre" Arrêté - Aucun dysfonctionnement "et le type de balise utilisé" Donc ma question est, est-ce que cela peut être sauvegardée?

42/135  (31%) tags stopped for all types 
 8/17   (47%) tags stopped for 80NS     
29/77   (38%) tags stopped for 70GPS    
 3/22   (14%) tags stopped for 105GPS   
 2/13   (15%) tags stopped for 70GSM    
 0/6     (0%) tags stopped for 95BTOGSM 

Je suppose donc que la déclaration est vraie si le taux d'échec 80NS de 47% est nettement pire que la moyenne mondiale de 31%. Et ce ne serait pas vrai si la probabilité d'obtenir 8 échecs dans un échantillon aléatoire de 17 balises sur 135 était en fait assez élevée. Plus abstraitement, s'il y avait 42 boules noires et 93 boules blanches dans un sac et que j'en ai choisi 17 au hasard, quelle est la probabilité que j'en choisisse 8 noires et 9 blanches?

Je peux déterminer la probabilité que les 8 premiers soient noirs comme (42/135) * (41/134) etc. mais je suis coincé à essayer de déterminer la probabilité que 8 des 17 soient noirs


EDIT: Les balises satellites ont été attachées aux oiseaux sur une période de 13 ans, de 2004 à 2016. Ce tableau montre 131 balises plutôt que 135. 4 balises ont été exclues car elles n'ont pas pu déterminer l'emplacement de déploiement précis de quatre balises précoces.

Type de tag par année de tag

Voici un autre tableau du rapport qui présente des données sur la durée de vie des balises 70GPS / 70GSM:

Arrêt de la durée de fonctionnement de l'étiquette sans dysfonctionnement

Colin
la source
2
Colin, il manque une variable clé à votre question: le temps écoulé depuis l'application du tag. Il est également possible que d'autres variables soient confondues avec le modèle d'étiquette: par exemple, peut-être différents modèles sont utilisés sur différentes espèces, ou des oiseaux de tailles différentes, ou certains sont plus âgés et certains plus jeunes. En supposant, alors, qu'il s'agit d'un véritable problème véritablement préoccupant, envisagez d'inclure ces données dans votre analyse.
whuber
2
@Antoine Je peux voir pourquoi tu pensais que c'était des devoirs, mais j'ai bien peur d'être trop vieux maintenant pour les devoirs. C'est un problème du monde réel qui m'intéresse. En partie parce que je suis intéressé par les statistiques et l'utilisation abusive des statistiques, et en partie parce que je n'aime pas la persécution des rapaces. C'est mon premier article dans le domaine des statistiques de l'échange de pile, donc si c'est inapproprié, je m'excuse
Colin
5
Pas du tout inapproprié! Nous recevons juste beaucoup de gens qui collent leurs devoirs et semblent s'attendre à ce que nous y répondions pour eux, donc il y a une certaine sensibilité autour de cela. Mais en tant que VRAIE question, c'est définitivement sur le sujet.
jbowman
2
Si cela ne vous dérange pas, laissez le calendrier. Cela ajoute des défis intéressants à la question. Savez-vous quelles années les balises ont été perdues? Idéalement, nous pourrions connecter la pièce jointe, le sort et le type correspondants pour chaque étiquette.
gung - Réintégrer Monica
1
À votre question: "La déclaration peut-elle être sauvegardée?" Je répondrais oui, c'est possible. Cependant, la relation n'est pas causale, il existe des facteurs de confusion évidents tels que l'âge des appareils qui ne peuvent pas être contrôlés. À toute déclaration "il est évident de voir telle ou telle relation causale", il n'est pas nécessaire de répondre par une inférence causale appropriée montrant la conclusion opposée. Il faut simplement trouver une variable confusionnelle qui menace l'identification de cette relation causale. Maintenant, si votre objectif est de mener une inférence causale appropriée, c'est une autre histoire.
dv_bn

Réponses:

0

J'ai trouvé un moyen d'accéder à ma réponse à partir de ce commentaire " recherchez la distribution hypergéométrique " sur math.stackexchange:

Extrait de l'article de Wikipedia sur la distribution hypergéométrique

En théorie des probabilités et statistiques, la distribution hypergéométrique est une distribution de probabilité discrète qui décrit la probabilité de k succès (tirages aléatoires pour lesquels l'objet dessiné a une caractéristique spécifiée) en n tirages, sans remplacement.

Ensuite, en utilisant une calculatrice hypergéométrique en ligne et les figures suivantes:

Population: 135

Nombre de succès dans la population: 42

Taille de l'échantillon: 17

Nombre de succès dans l'échantillon: 8

Je trouve que la probabilité d’obtenir exactement 8 est de 0,0703 et la probabilité d’obtenir 8 ou plus est de 0,1095

Je pense que le chiffre «8 ou plus» est le chiffre pertinent dans ce cas, et je dois dire que cette probabilité est inférieure à mon intuition prédite.

Les chiffres suggèrent donc qu'il y a une probabilité de 89% qu'il y ait quelque chose de différent dans le taux d'échec lorsqu'il est séparé par type d'étiquette. Cela ne signifie pas que la cause de la différence est le type de balise.

Colin
la source
1
Cela ne contrôle pas l'âge des balises, créant un doute sur la signification ou l'utilité de la probabilité.
whuber
@whuber, nous avons un "scientifique" qui prétend que "certaines balises ont des pertes en pourcentage beaucoup plus élevées (80NS à 47%) [...] si nous allons par balise, cela implique qu'il pourrait y avoir des balises et des harnais plus sujets à une défaillance inconnue que le reste "donc la première chose que je voulais savoir était quelle était la probabilité d’obtenir un taux d’échec de 47% si nous supposions que toutes les balises avaient le même taux d’échec.
Colin
@whuber En fait, l'argument est probablement théorique car si vous lisez le rapport d'origine, le 80NS est largement ignoré dans la discussion sur la fiabilité des balises et l'argument pour affirmer que les résultats "n'a arrêté aucun dysfonctionnement" est en grande partie dû à la persécution est basé principalement sur la preuve des étiquettes 70GPS / GSM. Le modèle 80NS n'a été déployé que dans les premières années, serait moins fiable et utilisait une conception de harnais plus susceptible d'être abandonnée prématurément.
Colin