Je travaille sur un manuel de statistiques tout en apprenant R et je suis tombé sur une pierre d'achoppement sur l'exemple suivant:
Après avoir regardé, ?quantile
j'ai essayé de recréer ceci dans R avec ce qui suit:
> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
0% 25% 50% 75% 100%
6.0 9.5 16.0 28.0 104.0
Étant donné que le texte et R ont des résultats différents, je suppose que R utilise la médiane dans le calcul des premier et troisième quartiles.
Question:
Devrais-je inclure la médiane dans le calcul des premier et troisième quartiles?
Plus précisément, le manuel ou R a-t-il cela correct? Si le manuel a cela correct, y a-t-il un moyen de le réaliser correctement dans R?
Merci d'avance.
quantile
types 1, 2 et 6 les reproduiront pour un jeu de données de cette taille . Aucune desR
méthodes ne correspond à votre manuel. (On s'interroge sur la qualité de ce texte ...)quantile
.?quantile
Réponses:
Votre manuel est confus. Très peu de personnes ou de logiciels définissent les quartiles de cette manière. (Cela a tendance à rendre le premier quartile trop petit et le troisième quartile trop grand.)
La
quantile
fonctionR
implémente neuf façons différentes de calculer les quantiles! Pour voir laquelle d’entre elles, le cas échéant, correspond à cette méthode, commençons par l’implémenter. À partir de la description, nous pouvons écrire un algorithme, d'abord mathématiquement, puis dansR
:Pour tout ensemble de données, la médiane est sa valeur moyenne lorsqu'il existe un nombre impair de valeurs; sinon, il s'agit de la moyenne des deux valeurs centrales lorsqu'il existe un nombre pair de valeurs.
R
Lamedian
fonction de calcule ceci.Voici une implémentation. Cela peut vous aider à faire vos exercices dans ce manuel.
Par exemple, la sortie de
quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))
correspond au texte:Calculons les quartiles de petits ensembles de données en utilisant les dix méthodes: le neuf
R
et le manuel:Lorsque vous exécutez ceci et vérifiez, vous constaterez que les valeurs de manuel ne sont pas en accord avec aucun des
R
résultats pour les trois tailles d'échantillon. (La tendance des désaccords se poursuit au cours des cycles de la période trois, montrant que le problème persiste, quelle que soit la taille de l'échantillon.)la source
Dans le domaine des statistiques (que j'enseigne, mais dans lequel je ne suis pas chercheur), les calculs par quartile sont particulièrement ambigus (d'une manière qui n'est pas nécessairement vraie pour les quantiles, plus généralement). Cela a beaucoup d’histoire derrière, en partie à cause de l’utilisation (et peut-être même de l’abus) de la fourchette inter-quartile (IQR), insensible aux valeurs aberrantes, comme moyen de contrôle ou comme alternative à l’écart type. Il reste un concours ouvert, avec trois méthodes distinctes pour calculer Q1 et Q3 étant co-canoniques.
Comme souvent, l'article de Wikipedia contient un résumé raisonnable: https://en.m.wikipedia.org/wiki/Quartile Le texte de Larson et Farber, comme la plupart des textes de statistiques élémentaires, utilise ce qui est décrit dans l'article de Wikipedia: " Méthode 1. " Si je suis les descriptions ci-dessus, r utilise la "Méthode 3". Vous devrez décider vous-même ce qui est canoniquement approprié dans votre propre domaine.
la source