Comment calculer la moyenne tronquée ou rognée?

9

Comment puis-je calculer la moyenne tronquée ou rognée? Disons tronqué de 10%?

Je peux imaginer comment le faire si vous avez environ 10 entrées, mais comment puis-je le faire pour beaucoup d'entrées?

Queops
la source
1
Est-ce que cela devrait être étiqueté coupé au lieu d'être tronqué?
Je dirais que soit fr.wikipedia.org/wiki/Truncated_mean fera l'affaire.
Queops

Réponses:

19

La moyenne ajustée consiste à ajuster les observations du pourcentage de aux deux extrémités.P

Par exemple: si l'on vous demande de calculer une moyenne ajustée de 10%, .P=10

Étant donné un tas d'observations, :Xi

  1. Trouvez d'abord = nombre d'observations.n
  2. Réorganisez-les en tant que "statistiques de commande" du plus petit au plus grand. Xi
  3. Trouver les minuscules = proportion ajustée.p=P/100
  4. Calculer .np

Si est un entier, utilisez et coupez observations aux deux extrémités. npk=npk

R = observations restantes = .n2k

Moyenne ajustée =(1/R)(Xk+1+Xk+2++Xnk).

Exemple : trouver une moyenne ajustée de 10%

2, 4, 6, 7, 11, 21, 81, 90, 105, 121

Ici, qui est un entier, donc coupez exactement une observation à chaque extrémité, car . Ainsi, coupez 2 et 121. Nous nous retrouvons avec observations.n=10,p=0.10,k=np=1k=1R=n2k=102=8

10% moyenne ajustée = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40,625

Si a une partie fractionnaire présente, la moyenne ajustée est un peu plus compliquée. Dans l'exemple ci-dessus, si nous voulions une moyenne ajustée de 15%, . Celui-ci a une partie entière 1 et une partie fractionnaire 0,5 est présente. . Ainsi, observations sont conservées.npP=15,p=0.15,n=10,k=np=1.5R=n2k=1021.5=103=7R=7

Addendum au commentaire de @ whuber: Pour rester impartial (après avoir supprimé 2 et 121), il semble que nous devons supprimer la moitié des 4 et la moitié des 105 pour une moyenne tronquée de(4/2+6+7+11+21+81+90+105/2)/7=38.64

Source: Notes de classe sur la moyenne ajustée du pourcentage de P

Mehper C. Palavuzlar
la source
@Mehper Dans le dernier exemple, quelles trois observations supprimeriez-vous? Évidemment le 2 et le 121, mais quoi d'autre? Pour rester impartial, il semble que vous devez supprimer la moitié des 4 et la moitié des 105 pour une moyenne ajustée de (4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2) / 7 = 34,64
whuber
@Mehper: juste pour info, vous pouvez formater les maths en écrivant l'expression TeX entre les signes $. Par exemple$X_i$
nico
@whuber: Merci pour votre commentaire, j'ai ajouté votre commentaire à la réponse; @nico: Merci de m'avoir informé du formatage de TeX. J'ai essayé de mettre à jour la réponse en utilisant le format TeX mais je n'ai pas pu le gérer correctement. Pourriez-vous s'il vous plaît me donner un lien qui explique comment utiliser le style TeX dans les publications? Je n'ai aucune expérience en TeX.
Mehper C. Palavuzlar
1
@Mehper: Google "TeX Manual" et faites votre choix. J'aime la "douce introduction" car elle contient des tableaux utiles et lisibles: tex.ac.uk/tex-archive/info/gentle/gentle.pdf
whuber
1
@Mepher: bien sûr, c'est parti! mathjax.org/help/user (notez que si vous cliquez avec le bouton droit sur une formule mathématique, vous aurez un menu contextuel lié à cette page). Vous pouvez également utiliser MathML au lieu de TeX (si vous êtes très courageux: P).
nico
5

En plus de la réponse ci-dessus, s'il y a de nombreuses entrées (disons n), leur premier tri prend du temps O (n log n). Cependant, il existe une solution en temps linéaire.

  1. Calculez le P-quantile L et (1-P) -quantile U. Il existe un algorithme simple (semblable à un tri rapide) qui s'exécute dans le temps linéaire attendu. Il existe également un algorithme plus compliqué qui s'exécute dans le pire des cas en temps linéaire. Les deux peuvent être trouvés, par exemple, dans: Cormen, Leiserson, Rivest, Stein: Introduction to Algortithms.

  2. Parcourez toutes les valeurs et ajoutez celles entre L et U. Cela prend évidemment du temps linéaire.

  3. S'il existe des liens et que les quantiles calculés existent plusieurs fois parmi les valeurs, il se peut que nous ayons ajouté trop ou trop peu de valeurs et que nous devions peut-être corriger cela de manière appropriée. Puisque nous savons combien de nombres nous avons ajoutés à l'étape 2, et aussi combien de fois nous avons vu L et U, cela peut être fait en temps constant.

  4. Divisez la somme totale par le nombre de sommations.

Notez que la recette ci-dessus ne vaut que si n est vraiment grand et le tri de tous serait un succès de performance, peut-être quelques millions.


la source