Estimer la masse de fruits dans un sac à partir des totaux liés uniquement?

Un professeur de mon université a posé une question comme celle-ci (pas pour les devoirs car le cours est terminé et je n'y étais pas). Je ne sais pas comment l'aborder.

La question concerne 2 sachets contenant chacun un assortiment de différents types de fruits:

Le premier sac contient les fruits sélectionnés au hasard suivants:

+ ------------- + -------- + --------- +
| diamètre cm | masse g | pourri? |
+ ------------- + -------- + --------- +
| 17,28 | 139,08 | 0 |
| 6,57 | 91,48 | 1 |
| 7.12 | 74,23 | 1 |
| 16,52 | 129,8 | 0 |
| 14,58 | 169,22 | 0 |
| 6,99 | 123,43 | 0 |
| 6,63 | 104,93 | 1 |
| 6,75 | 103,27 | 1 |
| 15,38 | 169.01 | 1 |
| 7.45 | 83,29 | 1 |
| 13.06 | 157,57 | 0 |
| 6,61 | 117,72 | 0 |
| 7.19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

Le deuxième sac contient 6 fruits sélectionnés au hasard dans le même magasin que le premier sac. La somme de leurs diamètres est de 64,2 cm et 4 sont pourris.

Donnez une estimation de la masse du deuxième sac.

Je peux voir qu'il semble y avoir deux types de fruits différents avec des diamètres et des masses normalement distribués, mais je ne sais pas comment procéder.

regression estimation rutilusk
la source

Question intéressante - mais données étranges: les poids spécifiques varient de 0,78 à 0,05. Peut-être que quelqu'un a confondu les décorations en polystyrène avec de vrais fruits? :-)

whuber

La question ne dit pas de quoi le fruit était fait. Je suppose que vous pouvez également supposer que les sacs eux-mêmes sont en apesanteur. Comment résoudre le problème?

rutilusk

L'idée maîtresse de mon commentaire était que lorsque nous analysons de si petites quantités de données en désordre, nous nous appuyons sur la connaissance de la signification des données. Étant donné que ces chiffres ne décrivent évidemment aucun type connu de "fruit", nous ne pouvons pas faire appel à une telle connaissance du domaine. (Par exemple, nous n'avons aucun fondement pour supposer qu'une partie quelconque de ces données devrait être "normalement distribuée".) Cela rend difficile, voire impossible, l'élaboration de réponses raisonnables et peut conduire à une controverse, car cela limite les façons dont la performance de toute approche peut être évaluée.

whuber

Mais les fruits en polystyrène ne peuvent pas pourrir. Peut-être que les fruits sont des sphéroïdes proliférés, avec un "diamètre" mesuré le long de l'axe long. Il semble qu'il y ait au moins deux sortes de fruits: ainsi, en supposant des poids spécifiques proches de un, le plus petit aurait à peu près la taille et la forme d'un citron; le plus grand environ un demi-pied de long et moins de 2 pouces de diamètre. La difficulté avec cette idée est qu'il semble plus naturel de décrire l'axe le plus court comme le "diamètre".

Scortchi - Réintégrer Monica

Réponses:

Commençons par tracer les données et examinons-les. Il s'agit d'une quantité très limitée de données, donc cela va être quelque peu ponctuel avec beaucoup d'hypothèses.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Voici donc les données, les points rouges représentent les fruits pourris:

fruits tracés

Vous avez raison de supposer qu'il semble y avoir deux sortes de fruits. Les hypothèses que je fais sont les suivantes:

Le diamètre divise les fruits en deux groupes
Les fruits d'un diamètre supérieur à 10 sont dans un groupe, les autres dans le plus petit groupe.
Il n'y a qu'un seul fruit pourri dans le grand groupe de fruits. Supposons que si un fruit est dans le grand groupe, être pourri n'affecte pas le poids. Ceci est essentiel, car nous n'avons qu'un seul point de données dans ce groupe.
Si le fruit est un petit fruit, être pourri affecte la masse.
Supposons que les variables diam et mass soient normalement distribuées.

Étant donné que la somme du diamètre est de 64,2 cm, il est très probable que deux fruits soient gros et quatre petits. Maintenant, il y a 3 cas pour le poids. Il y a 2, 3 ou 4 petits fruits pourris ( un gros fruit pourri n'affecte pas la masse par hypothèse ). Alors maintenant, vous pouvez obtenir des limites sur votre masse en calculant ces valeurs.

Nous pouvons estimer empiriquement la probabilité que le nombre de petits fruits pourris. Nous utilisons les probabilités pour pondérer nos estimations de la masse, en fonction du nombre de fruits pourris:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights)

Nous donnant une estimation finale de 691,5183g . Je pense que vous devez faire la plupart des hypothèses que j'ai faites pour arriver à une conclusion, mais je pense qu'il pourrait être possible de le faire de manière plus intelligente. J'ai aussi échantillonné empiriquement pour obtenir la probabilité du nombre de petits fruits pourris, c'est juste de la paresse et cela peut être fait "analytiquement".

Gumeo
la source

Nous vous remercions de votre contribution. Il me semble que la plupart des affirmations que vous appelez "hypothèses" sont en fait des conclusions basées sur votre analyse exploratoire. Il serait utile d'analyser comment vos résultats dépendent de l'exactitude de ces conclusions. Quoi qu'il en soit, il est clair qu'un si petit ensemble de données ne peut pas supporter un résultat avec sept chiffres significatifs! Il serait particulièrement utile de fournir une évaluation de son erreur probable. Il sera relativement important, ce qui serait important à savoir.

whuber

@whuber merci pour le commentaire, je pourrais ajouter quelque chose de plus pour estimer la variation plus tard dans la soirée. La chose la plus simple à faire serait d'obtenir des estimations d'erreur pour la masse des trois groupes que j'utilise pour le calcul final et de calculer des intervalles de prédiction en fonction de cela. Mais je vois que OP est inactif depuis un an, donc je ne m'attends pas à ce que cette réponse soit acceptée. Je pense toujours que cet exemple est un joli problème de "jouet" pour voir comment vous pouvez obtenir avec si peu de données.

Gumeo

J'essaie de suggérer que vous obtenez en réalité beaucoup moins d'informations que ne le suggère votre réponse, car cela dépend de nombreuses conclusions dérivées de données elles-mêmes très incertaines.

whuber

@whuber Oui, c'est tout à fait correct. Mais essayer d'estimer l'erreur propagée par toutes les hypothèses / conclusions que je fais n'est pas très simple. J'ai également été fortement influencé par le fait que la somme des diamètres des fruits dans le deuxième sac est de 64,2 cm et que OP mentionne qu'il pourrait y avoir deux groupes de fruits.

Gumeo

@whuber Je vais y penser et prendre cela comme un défi. Je reviendrai sur cette question plus tard!

Gumeo

Je proposerais l'approche suivante:

Générez tous les 6-tuples qui remplissent les conditions sur 4 pourris. Ils sont . ${6\choose 4}{7\choose 2}$
Sélectionnez parmi les tuples générés uniquement ceux qui satisfont la condition sur le diamètre.
Calculez le poids moyen des tuples sélectionnés (moyenne arithmétique habituelle).

Tout cela est gérable par un simple script.

Karel Macek
la source

Pourquoi cette approche devrait-elle fonctionner? Quelles hypothèses fait-il? L'avez-vous essayé pour voir s'il peut même produire une réponse?

whuber

Les approches multiples incluent, du plus simple au plus complexe,

6 (masse moyenne)
6 (volume moyen) (densité moyenne)
4 (masse moyenne pourrie) + 2 (masse moyenne non pourrie)
4 ((volume moyen pourri) + 2 (volume moyen non pourri)) (densité moyenne)
4 (volume moyen pourri) (densité moyenne pourrie) + 2 (volume moyen non pourri) (densité moyenne non pourrie)

. . .

méthodes combinatoires

Les approches sont classées par ordre de simplicité de calcul, et non par ordre d'approche meilleure ou de bien quelconque. Le choix de l'approche à utiliser dépend des caractéristiques de la population connues ou supposées. Par exemple, si les masses de fruits dans la population des magasins sont normalement distribuées et indépendantes des diamètres et du statut de pourriture, on pourrait utiliser la première approche la plus simple sans aucun avantage (ou même les inconvénients de l'erreur d'échantillonnage de plusieurs variables) d'utiliser des approches plus complexes . S'il ne s'agit pas de variables aléatoires indépendantes réparties de manière identique, un choix plus complexe en fonction des informations connues ou supposées sur la population peut être préférable.

Hax
la source

Pourquoi est-ce que tout cela est bon? Quelles hypothèses font-ils? Comment choisirait-on l'un sur l'autre? (Sont-ils également par ordre croissant de bonté dans un certain sens?)

Whuber