Quelle est l'interprétation de l'intervalle interquartile?

9

J'ai des mesures quotidiennes de dioxyde d'azote pendant un an (365 jours) et l' interquartile (IQR) est de 24 microgrammes par mètre cube. Que signifie "24" dans ce contexte, à part la définition de l'IQR qui est la différence entre le 25e et le 75e centile ? Comment expliqueriez-vous ce chiffre à un journaliste, par exemple?

Merci

user2742
la source
quelle est la moyenne ou la médiane?
mpiktas

Réponses:

18

D'après la définition, cela définit la plage qui contient 75-25 = 50% de toutes les valeurs mesurées.

: (médiane-24/2, médiane + 24/2). La médiane doit être écrite quelque part près de cet IQR.
Ce qui précède était faux bien sûr, il semble que je dormais encore en écrivant ceci; Désolé pour la confusion. Il est vrai que l'IQR est la largeur d'une plage qui contient 50% des données, mais elle n'est pas centrée sur la médiane - il faut connaître à la fois Q1 et Q3 pour localiser cette plage.

En général, l'IQR peut être considéré comme un paramètre non paramétrique (= lorsque nous ne supposons pas que la distribution est gaussienne) équivalent à l'écart-type - les deux mesurent la propagation des données. (Equivalent non égal, pour SD, (moyenne-σ, signifie +σ) détient 68,2% des données parfaitement normalement distribuées).

EDIT: Comme par exemple, voici à quoi cela ressemble sur les données normales; les lignes rouges montrent±1σ, la plage indiquée par la boîte sur le graphique en boîte montre IQR, l'histogramme montre les données elles-mêmes: texte alternatif
vous pouvez voir les deux afficher assez bien;±1σla plage contient 68,3% des données (comme prévu). Maintenant, pour les données non normales,
texte alternatif
l'écart SD est élargi en raison de la longue queue asymétrique et±1σdétient 90,5% des données! (IQR détient 50% dans les deux cas par définition)

Utsav T
la source
13

Il s'agit d'une simple question demandant une réponse simple. Voici une liste d'énoncés, en commençant par les plus élémentaires et en poursuivant avec des qualifications plus précises.

L'IQR est la propagation de la moitié moyenne des données.

Sans faire d'hypothèses sur la façon dont les données sont distribuées , l'IQR quantifie la valeur de variation typique des valeurs individuelles.

L'IQR est lié à la fameuse «déviation standard» (SD): lorsque les données suivent une «courbe en cloche», l'IQR est environ 35% plus élevé que la SD. (De manière équivalente, le SD représente environ les trois quarts de l'IQR.)

En règle générale, les valeurs de données qui s'écartent de la valeur intermédiaire de plus du double de l'IQR méritent une attention individuelle. Ils sont appelés «valeurs aberrantes». Les valeurs de données qui s'écartent de la valeur moyenne de plus de 3,5 fois l'IQR sont généralement examinées de près. Ils sont parfois appelés «éloignés».

whuber
la source
6

La plage interquartile est un intervalle , pas un scalaire. Vous devez toujours déclarer les deux nombres, pas seulement la différence entre eux. Vous pouvez ensuite l'expliquer en disant que la moitié des lectures de l'échantillon se situaient entre ces deux valeurs, un quart étaient plus petites que le quartile inférieur et un quart plus élevées que le quartile supérieur.

un arrêt
la source
4
@onestop Cela m'incite à penser si IQR doit être un intervalle ou un scalaire. D'après Wikipédia, il est défini comme un scalaire et correspond à ce que j'ai appris.
user2742
2
J'ai toujours su que l'IQR est la différence entre le 3e et le 1er quartile, donc un scalaire.
nico
2
Bien que l'IQR puisse être défini comme un scalaire, s'il est signalé comme un intervalle, il contient beaucoup plus d'informations. Par exemple, [-1,1] et [499,501] auront la même plage, mais les implications sont différentes.
mpiktas
1
(IMHO) IQR est un scalaire: c'est la longueur d'un intervalle. Evidemment, puisqu'il est toujours possible de passer du second (couché dans un sous-ensemble de R ^ 2) au premier (couché en R +) mais pas vice-versa, ce dernier est plus informatif que le premier.
glassy
1
Je m'attendais à ce que cela soit controversé et je réalise que ce n'est pas la définition habituelle , mais je pense que c'est une définition plus utile. D'après mon expérience de la littérature médicale, il est beaucoup plus courant de déclarer les deux quartiles comme l'IQR plutôt que la différence entre eux, et je suis heureux que ce soit le cas.
2011 à
1

En gros, je dirais à un journaliste que je pourrais déclarer le niveau quotidien de dioxyde d'azote en étant sûr, après avoir écarté les valeurs les plus élevées et les valeurs les plus basses, que dans chacun de la moitié des jours de cette année, la valeur observée est pas au-delà d'une distance IQR / 2 du niveau déclaré.

Par exemple, si votre premier quartile et votre troisième quartile sont 100 et 124, vous pouvez dire que le niveau quotidien est de 112 (moyenne de 100 et 124) et assurer votre interlocuteur que dans la moitié des jours l'erreur que vous faites n'est pas supérieure à 12 .

vitreux
la source
Pourriez-vous expliquer la distinction que vous faites entre le niveau «observé» et le niveau «déclaré»? (Je soupçonne également qu'un bon journaliste serait gêné par le fait que vous "rejetez" des valeurs et que vous
poseriez
@whuber: J'ajoute un exemple à ma réponse. Concernant les questions difficiles, je suppose qu'elles se posent même si vous répondez à la distribution normale (comme le font les autres réponses à cette question), ou à un autre concept. Pourrait-il être plus simple d'expliquer une moyenne à 50%? Si c'est le cas, alors dites que l'IQR est la longueur de la plage de ses observations
vitreux