Que signifie «observations indépendantes»?

28

J'essaie de comprendre ce que l' hypothèse d'observations indépendantes signifie. Certaines définitions sont:

  1. "Deux événements sont indépendants si et seulement si ." ( Dictionnaire des termes statistiques )P(ab)=P(a)P(b)
  2. "l'occurrence d'un événement ne change pas la probabilité d'un autre" ( Wikipedia ).
  3. "l'échantillonnage d'une observation n'affecte pas le choix de la deuxième observation" ( David M. Lane ).

Un exemple d'observations dépendantes qui est souvent donné est les élèves imbriqués dans les enseignants comme ci-dessous. Supposons que les enseignants influencent les élèves mais les élèves ne s'influencent pas les uns les autres.

Alors, comment ces définitions sont-elles violées pour ces données? L'échantillonnage [note = 7] pour [élève = 1] n'affecte pas la distribution de probabilité pour la note qui sera échantillonnée ensuite. (Ou le fait-il? Et si oui, alors que prévoit l'observation 1 concernant l'observation suivante?)

Pourquoi les observations seraient-elles indépendantes si j'avais mesuré gender au lieu de teacher_id? N'affectent-ils pas les observations de la même manière?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9
RubenGeert
la source
4
On pourrait suggérer que la distribution des notes pour l'enseignant 1 avait une valeur "moyenne" inférieure à celle de l'enseignant 2 et que, par conséquent, les élèves de l'enseignant 1 auraient tous tendance à avoir des notes inférieures, en moyenne, à celles des étudiants de l'enseignant 2. En d'autres termes , la répartition des élèves / notes pour les deux enseignants pourrait bien être différente. Cela suffirait à rendre les observations dépendantes.
Reinstate Monica - G. Simpson
1
@GavinSimpson: J'ai réfléchi à cette ligne de raisonnement exacte. Cependant, que se passe-t-il si je remplace teacherpar gender? Le genre est présent dans la plupart des données des sciences sociales et est en corrélation avec presque tout dans une certaine mesure.
RubenGeert
1
Cela doit sûrement dépendre de la réponse. Si nous examinions les notes des étudiants en sciences au Royaume-Uni, il y aurait peut-être un effet avec des distributions de niveaux de scolarité différentes pour les deux sexes, en moyenne sur les populations que vous étudiez. Quoi qu'il en soit, tout cela n'a d'importance (dans un modèle statistique) que pour les résidus, ou autrement pour les réponses conditionnées par le modèle ajusté. En d'autres termes, si les observations ne sont pas indépendantes, c'est OK tant que le modèle tient compte de ce fait que les résidus sont indépendants.
Rétablir Monica - G. Simpson
4
Vous ne pouvez pas prendre (1) ou (2) comme définitions de l'indépendance (statistique), car l'indépendance peut être définie sans référence à la causalité. Les trois citations ne sont que des efforts pour fournir des exemples informels et intuitifs . ((3) pourrait éventuellement être considéré comme une définition à condition d'avoir accès à une définition quantitative et rigoureuse de la quantité d'informations.) Il serait donc judicieux de se référer à une définition réelle telle que celles figurant sous la rubrique "Définition". dans l'article Wikipédia auquel vous faites référence.
whuber
1
Non, vous pouvez rendre les résidus indépendants (ou au moins réduire la dépendance à un point tel que les résidus semblent indépendants). Cela vient des hypothèses du modèle linéaire; où est une matrice de corrélation. L'hypothèse habituelle est que est une matrice d'identité, donc les diagonales décalées sont nulles et donc l'hypothèse d'indépendance est sur les résidus. Autrement dit, il s'agit d'une déclaration sur conditionnelle au modèle ajusté. Λ Λ yεN(0,σ2Λ)ΛΛy
Rétablir Monica - G. Simpson

Réponses:

11

Dans la théorie des probabilités, l'indépendance statistique (qui n'est pas la même chose que l'indépendance causale) est définie comme votre propriété (3), mais (1) suit en conséquence . Les événements et sont statistiquement indépendants si et seulement si:A BAB

P(AB)=P(A)P(B).

Si alors si suit cela:P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

Cela signifie que l'indépendance statistique implique que la survenance d'un événement n'affecte pas la probabilité de l'autre. Une autre façon de le dire est que la survenance d'un événement ne devrait pas changer vos croyances sur l'autre. Le concept d'indépendance statistique est généralement étendu des événements aux variables aléatoires d'une manière qui permet de faire des déclarations analogues pour les variables aléatoires, y compris les variables aléatoires continues (qui ont une probabilité nulle de tout résultat particulier). Le traitement de l'indépendance pour les variables aléatoires implique essentiellement les mêmes définitions appliquées aux fonctions de distribution.


Il est crucial de comprendre que l' indépendance est une propriété très forte - si les événements sont statistiquement indépendants, alors (par définition) nous ne pouvons pas en apprendre un sur l'observation de l'autre. Pour cette raison, les modèles statistiques impliquent généralement des hypothèses d' indépendance conditionnelle , étant donné une distribution ou des paramètres sous-jacents. Le cadre conceptuel exact dépend si l'on utilise des méthodes bayésiennes ou des méthodes classiques. La première implique une dépendance explicite entre des valeurs observables, tandis que la seconde implique une forme implicite (compliquée et subtile) de dépendance. Comprendre correctement ce problème nécessite un peu de compréhension des statistiques classiques par rapport aux statistiques bayésiennes.

Les modèles statistiques diront souvent qu'ils utilisent l'hypothèse que les séquences de variables aléatoires sont «indépendantes et identiquement distribuées (IID)». Par exemple, vous pourriez avoir une séquence observable , ce qui signifie que chaque variable aléatoire observable est normalement distribuée avec la moyenne et l'écart typeX1,X2,X3,...IID N(μ,σ2) μ σXiμσ. Chacune des variables aléatoires de la séquence est "indépendante" des autres en ce sens que son résultat ne modifie pas la distribution déclarée des autres valeurs. Dans ce type de modèle, nous utilisons les valeurs observées de la séquence pour estimer les paramètres du modèle, et nous pouvons alors à leur tour prédire les valeurs non observées de la séquence. Cela implique nécessairement d'utiliser certaines valeurs observées pour en apprendre davantage sur les autres.

Statistiques bayésiennes: Tout est conceptuellement simple. Supposons que sont conditionnellement IID étant donné les paramètres et , et traitez ces paramètres inconnus comme des variables aléatoires. Étant donné toute distribution antérieure non dégénérée de ces paramètres, les valeurs de la séquence observable dépendent (inconditionnellement), généralement avec une corrélation positive. Par conséquent, il est parfaitement logique que nous utilisons les résultats observés pour prédire les résultats ultérieurs non observés - ils sont indépendants conditionnellement, mais dépendants inconditionnellement.μ σX1,X2,X3,...μσ

Statistiques classiques: C'est assez compliqué et subtil. Supposons que sont IID étant donné les paramètres et , mais traitons ces paramètres comme des "constantes inconnues". Étant donné que les paramètres sont traités comme des constantes, il n'y a pas de différence claire entre l'indépendance conditionnelle et l'indépendance inconditionnelle dans ce cas. Néanmoins, nous utilisons toujours les valeurs observées pour estimer les paramètres et faire des prédictions des valeurs non observées. Par conséquent, nous utilisons les résultats observés pour prédire les résultats non observés ultérieurs, même s'ils sont théoriquement «indépendants» les uns des autres. Cette incongruité apparente est discutée en détail dans O'Neill, B. (2009) Exchangeability, Correlation and Bayes 'Effect. μ σX1,X2,X3,...μσRevue statistique internationale 77 (2) , p. 241 - 250 .


L' application de ce à vos données de notes des étudiants, vous auriez probablement modèle quelque chose comme ceci en supposant que gradeest conditionnelle indépendante GIVEN teacher_id. Vous utiliseriez les données pour faire des inférences sur la distribution des notes pour chaque enseignant (qui ne serait pas supposée être la même) et cela vous permettrait de faire des prédictions sur l'inconnu graded'un autre élève. Étant donné que la gradevariable est utilisée dans l'inférence, elle affectera vos prédictions de toute gradevariable inconnue pour un autre élève. Le remplacement teacher_idpar genderne change rien à cela; dans les deux cas, vous avez une variable que vous pourriez utiliser comme prédicteur grade.

Si vous utilisez la méthode bayésienne, vous aurez une hypothèse explicite d'indépendance conditionnelle et une distribution préalable pour les distributions des notes des enseignants, ce qui conduit à une dépendance inconditionnelle (prédictive) des notes, vous permettant d'utiliser rationnellement une note dans votre prédiction d'une autre. Si vous utilisez des statistiques classiques, vous aurez une hypothèse d'indépendance (basée sur des paramètres qui sont des "constantes inconnues") et vous utiliserez des méthodes de prédiction statistique classiques qui vous permettent d'utiliser une note pour en prédire une autre.


Il existe des présentations fondamentales de la théorie des probabilités qui définissent l'indépendance via l'énoncé de probabilité conditionnelle et donnent ensuite l'énoncé de probabilité conjoint en conséquence. C'est moins courant.

Réintégrer Monica
la source
6
L'indépendance statistique est tout à fait ce que vous décrivez dans la première partie de votre réponse. Mais votre phrase "... si les événements sont statistiquement indépendants, alors (par définition) nous ne pouvons pas en apprendre un sur l'observation de l'autre." est manifestement faux. Le monde regorge d' événements statistiquement indépendants mais similaires et de variables aléatoires.
Alecos Papadopoulos
1
«Apprendre» ne signifierait-il pas changer nos croyances sur une chose en se basant sur l'observation d'une autre? Si oui, l'indépendance (définitionnelle) ne l'empêche-t-elle pas?
Rétablir Monica le
6
FF
4
FFFF
2
La difficulté dans ce problème est que les statistiques classiques traitent la distribution et les paramètres sous-jacents comme des "constantes inconnues" et ne font donc aucune distinction explicite entre l'indépendance conditionnelle ou l'indépendance inconditionnelle, dans ce cas. Dans les statistiques bayésiennes, tout est très simple.
Rétablir Monica le
4

x=(X1,...,Xj,...,Xk)k

ni=1,...,n

xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k vecteur dimensionnel une "observation" (bien qu'il ne devienne vraiment un que lorsque nous mesurons et enregistrons les réalisations des variables aléatoires impliquées).

fi(xi),i=1,...,nf(x1,...,xi,...,xn)

S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

DSn

Cela signifie que les "observations" sont "conjointement indépendantes", (au sens statistique, ou "indépendantes en probabilité" comme le disait le vieil adage que l'on voit encore parfois parfois). L'habitude est simplement de les appeler «observations indépendantes».

i

Notez également que dans les cas où nous avons des variables aléatoires continues sans densité, ce qui précède peut être exprimé en termes de fonctions de distribution.

C'est ce que signifie «observations indépendantes» . C'est une propriété définie avec précision exprimée en termes mathématiques. Voyons un peu ce que cela implique .

QUELQUES CONSEQUENCES D'AVOIR DES OBSERVATIONS INDÉPENDANTES

A. Si deux observations font partie d'un groupe d'observations conjointement indépendantes, elles sont également "indépendantes par paire" (statistiquement),

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

Ceci implique à son tour que les PMF / PDF conditionnels sont égaux à ceux «marginaux»

f(xixm)=fi(xi)im,i,m=1,...,n

Cela se généralise à de nombreux arguments, conditionnés ou conditionnant, disons

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

etc, tant que les index à gauche sont différents des index à droite de la ligne verticale.

Cela implique que si nous observons réellement une observation, les probabilités caractérisant toute autre observation de l'échantillon ne changent pas. Donc en matière de prédiction , un échantillon indépendant n'est pas notre meilleur ami. Nous préférerions avoir la dépendance pour que chaque observation puisse nous aider à dire quelque chose de plus sur toute autre observation.

B. D'un autre côté, un échantillon indépendant a un contenu informationnel maximal. Chaque observation, étant indépendante, contient des informations qui ne peuvent être déduites, en tout ou en partie, par aucune autre observation de l'échantillon. La somme totale est donc maximale, par rapport à tout échantillon comparable où il existe une certaine dépendance statistique entre certaines des observations. Mais à quoi servent ces informations, si elles ne peuvent pas nous aider à améliorer nos prévisions?

Eh bien, ce sont des informations indirectes sur les probabilités qui caractérisent les variables aléatoires dans l'échantillon. Plus ces observations ont des caractéristiques communes (distribution de probabilité commune dans notre cas), plus nous sommes en meilleure position pour les découvrir, si notre échantillon est indépendant.

En d'autres termes, si l'échantillon est indépendant et "distribué de manière identique", ce qui signifie

fi(xi)=fm(xm)=f(x),im

f(x)fj(xji)

f(xixm)=fi(xi)xi fi

Par conséquent, en ce qui concerne l' estimation (qui est parfois utilisée comme terme fourre-tout, mais ici elle doit être maintenue distincte du concept de prédiction ), un échantillon indépendant est notre "meilleur ami", s'il est combiné avec le "réparti de manière identique". " propriété.

C. Il s'ensuit également qu'un échantillon indépendant d'observations où chacune est caractérisée par une distribution de probabilité totalement différente, sans aucune caractéristique commune, est aussi sans valeur une collecte d'informations que l'on peut obtenir (bien sûr, chaque élément d'information en soi est digne, le problème ici est que, pris ensemble, ils ne peuvent pas être combinés pour offrir quelque chose d'utile). Imaginez un échantillon contenant trois observations: une contenant (caractéristiques quantitatives) des fruits d'Amérique du Sud, une autre contenant des montagnes d'Europe et une troisième contenant des vêtements d'Asie. Des éléments d'information assez intéressants tous les trois, mais ensemble, en tant qu'échantillon, ils ne peuvent rien faire statistiquement utile pour nous.

Autrement dit, une condition nécessaire et suffisante pour qu'un échantillon indépendant soit utile, est que les observations aient en commun certaines caractéristiques statistiques. C'est pourquoi, dans Statistiques, le mot "échantillon" n'est pas synonyme de "collecte d'informations" en général, mais de "collecte d'informations sur des entités qui ont des caractéristiques communes".

APPLICATION À L'EXEMPLE DE DONNÉES DE L'OP

En réponse à une demande de l'utilisateur @gung, examinons l'exemple de l'OP à la lumière de ce qui précède. Nous supposons raisonnablement que nous sommes dans une école avec plus de deux enseignants et plus de six élèves. Donc a) nous échantillonnons à la fois les élèves et les enseignants, et b) nous incluons dans notre ensemble de données la note correspondant à chaque combinaison enseignant-élève.

GPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

PiGi
T1,T2

s1,s2,s3T1s4,s5,s6T2

Notez soigneusement la distinction entre "la même variable aléatoire" et "deux variables aléatoires distinctes qui ont des distributions identiques".

s1,s2,s3T1s4,s5,s6T2

Supposons maintenant que nous excluons la variable aléatoire "enseignant" de notre échantillon. L'échantillon (élève, grade) de six observations est-il un échantillon indépendant? Ici, les hypothèses que nous ferons en ce qui concerne la relation structurelle entre les enseignants, les élèves et les notes sont importantes.

T1T2G1,G2,G3T1

Mais disons que les enseignants sont identiques à cet égard. Ensuite, dans l'hypothèse énoncée «les enseignants influencent les élèves», nous avons encore une fois que les trois premières observations dépendent les unes des autres, car les enseignants influencent les élèves qui influencent les notes, et nous arrivons au même résultat, quoique indirectement dans ce cas (et de même pour le trois autres). Encore une fois, l'échantillon n'est pas indépendant.

LE CAS DU GENRE

GeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

Notez bien que ce que nous avons inclus dans la description de l'échantillon en ce qui concerne le sexe, ce n'est pas la valeur réelle qu'il prend pour chaque élève, mais la variable aléatoire "Sexe" . Revenons au début de cette très longue réponse: l'échantillon n'est pas défini comme une collection de nombres (ou des valeurs numériques fixes ou non en général), mais comme une collection de variables aléatoires (c'est-à-dire de fonctions).

Gei1Ge1P2,P3,..., puis il s'en va une autre source possible de dépendance entre les observations. Enfin, le sexe d'un élève influence-t-il directement les notes d'un autre élève? si nous affirmons que non, nous obtenons un échantillon indépendant (à condition que tous les élèves aient le même enseignant).

Alecos Papadopoulos
la source
Je ne suis pas d'accord avec votre point B. À certaines fins, comme l'estimation d'une moyenne, une corrélation négative vaut mieux que l'indépendance.
kjetil b halvorsen
@kjetil Mieux dans quel sens?
Alecos Papadopoulos
Il serait utile que vous puissiez relier cela concrètement aux questions du PO dans le texte. Compte tenu de cela, comment comprenons-nous que les observations énumérées ne sont pas indépendantes? et en quoi le fait d'oublier un enseignant diffère-t-il d'un sexe?
gung - Rétablir Monica
@gung J'ai inclus une élaboration dans le sens que vous avez suggéré.
Alecos Papadopoulos
Mieux dans le sens de réduire la variance
kjetil b halvorsen
2

Les définitions de l'indépendance statistique que vous donnez dans votre message sont toutes essentiellement correctes, mais elles ne vont pas au cœur de l' hypothèse d' indépendance dans un modèle statistique . Pour comprendre ce que nous entendons par l'hypothèse d'observations indépendantes dans un modèle statistique, il sera utile de revoir ce qu'est un modèle statistique au niveau conceptuel.

Des modèles statistiques comme approximations des "dés de la nature"

Prenons un exemple familier: nous collectons un échantillon aléatoire d'humains adultes (d'une population bien définie - disons, tous les humains adultes sur terre) et nous mesurons leurs hauteurs. Nous souhaitons estimer la taille moyenne de la population des humains adultes. Pour ce faire, nous construisons un modèle statistique simple en supposant que la taille des personnes provient d'une distribution normale.

Notre modèle sera bon si une distribution normale fournit une bonne approximation de la façon dont la nature "choisit" les hauteurs pour les gens. Autrement dit, si nous simulons des données sous notre modèle normal, l'ensemble de données résultant ressemble-t-il étroitement (au sens statistique) à ce que nous observons dans la nature? Dans le contexte de notre modèle, notre générateur de nombres aléatoires fournit-il une bonne simulation du processus stochastique compliqué que la nature utilise pour déterminer les hauteurs d'adultes humains sélectionnés au hasard («dés de la nature»)?

L'hypothèse d'indépendance dans un contexte de modélisation simple

Lorsque nous avons supposé que nous pouvions approximer les «dés de la nature» en tirant des nombres aléatoires à partir d'une distribution normale, nous ne voulions pas dire que nous allions tirer un seul nombre de la distribution normale, puis attribuer cette hauteur à tout le monde. Nous voulions dire que nous tirerions indépendamment des nombres pour tout le monde à partir de la même distribution normale. C'est notre hypothèse d'indépendance.

Imaginez maintenant que notre échantillon d'adultes n'était pas un échantillon aléatoire, mais provenait plutôt d'une poignée de familles. La taille est courante dans certaines familles et la brièveté dans d'autres. Nous avons déjà dit que nous sommes prêts à supposer que la taille de tous les adultes provient d'une distribution normale. Mais l'échantillonnage à partir de la distribution normale ne fournirait pas un ensemble de données qui ressemble beaucoup à notre échantillon (notre échantillon montrerait des "groupes" de points, certains courts, d'autres hauts - chaque groupe est une famille). Les hauteurs des personnes de notre échantillon ne sont pas des tirages indépendants de la distribution normale globale.

L'hypothèse d'indépendance dans un contexte de modélisation plus compliqué

Mais tout n'est pas perdu! Nous pourrions être en mesure d'écrire un meilleur modèle pour notre échantillon - celui qui préserve l'indépendance des hauteurs. Par exemple, nous pourrions écrire un modèle linéaire où les hauteurs proviennent d'une distribution normale avec une moyenne qui dépend de la famille à laquelle appartient le sujet. Dans ce contexte, la distribution normale décrit la variation résiduelle , APRÈS avoir pris en compte l'influence de la famille. Et des échantillons indépendants d'une distribution normale pourraient être un bon modèle pour cette variation résiduelle.

Dans l'ensemble, ici, ce que nous avons fait est d'écrire un modèle plus sophistiqué de la façon dont nous nous attendons à ce que les dés de la nature se comportent dans le contexte de notre étude. En notant un bon modèle, nous pourrions encore être fondés à supposer que la partie aléatoire du modèle (c'est-à-dire la variation aléatoire autour des moyennes familiales) est échantillonnée indépendamment pour chaque membre de la population.

L'hypothèse (conditionnelle) d'indépendance dans un contexte général de modélisation

En général, les modèles statistiques fonctionnent en supposant que les données proviennent d'une certaine distribution de probabilité. Les paramètres de cette distribution (comme la moyenne de la distribution normale dans l'exemple ci-dessus) peuvent dépendre de covariables (comme la famille dans l'exemple ci-dessus). Mais bien sûr, des variations infinies sont possibles. La distribution peut ne pas être normale, le paramètre qui dépend des covariables peut ne pas être la moyenne, la forme de la dépendance peut ne pas être linéaire, etc. TOUS ces modèles reposent sur l'hypothèse qu'ils fournissent une approximation raisonnablement bonne de la façon dont les dés de la nature se comporter (encore une fois, les données simulées sous le modèle ressembleront statistiquement aux données réelles obtenues par la nature).

Lorsque nous simulons des données sous le modèle, la dernière étape consistera toujours à tirer un nombre aléatoire selon une distribution de probabilité modélisée. Ce sont les tirages que nous supposons indépendants les uns des autres. Les données réelles que nous obtenons peuvent ne pas sembler indépendantes, car les covariables ou d'autres caractéristiques du modèle peuvent nous dire d'utiliser des distributions de probabilité différentes pour différents tirages (ou ensembles de tirages). Mais toutes ces informations doivent être intégrées au modèle lui-même. Nous ne sommes pas autorisés à laisser le tirage du nombre final aléatoire dépendre des valeurs que nous avons tirées pour d'autres points de données. Ainsi, les événements qui doivent être indépendants sont les jets de "dés de la nature" dans le contexte de notre modèle.

Il est utile de qualifier cette situation d' indépendance conditionnelle , ce qui signifie que les points de données sont indépendants les uns des autres étant donné (c'est-à-dire conditionnés) les covariables. Dans notre exemple de taille, nous supposons que ma taille et la taille de mon frère conditionnée par ma famille sont indépendantes les unes des autres, et sont également indépendantes de votre taille et de la taille de votre sœur conditionnée par votre famille. Une fois que nous connaissons la famille de quelqu'un, nous savons de quelle distribution normale tirer pour simuler sa taille, et les tirages pour différentes personnes sont indépendants quelle que soit leur famille (même si notre choix de quelle distribution normale à tirer dépend de la famille). Il est également possible que même après avoir traité de la structure familiale de nos données, nous n'obtenions toujours pas une bonne indépendance conditionnelle (il est peut-être également important de modéliser le sexe, par exemple).

En fin de compte, s'il est logique de supposer l' indépendance conditionnelle des observations est une décision qui doit être prise dans le contexte d'un modèle particulier. C'est pourquoi, par exemple, en régression linéaire, nous ne vérifions pas que les données proviennent d'une distribution normale, mais nous vérifions que les RÉSIDUELS proviennent d'une distribution normale (et de la même distribution normale sur toute la plage de la Les données). La régression linéaire suppose que, après avoir pris en compte l'influence des covariables (la ligne de régression), les données sont échantillonnées indépendamment à partir d'une distribution normale, selon la définition stricte de l'indépendance dans le message d'origine.

Dans le cadre de votre exemple

"Enseignant" dans vos données pourrait être comme "famille" dans l'exemple de hauteur.

Un dernier tour

De nombreux modèles familiers supposent que les résidus proviennent d'une distribution normale. Imaginez que je vous ai donné des données qui n'étaient clairement pas normales. Peut-être qu'ils sont fortement asymétriques ou qu'ils sont bimodaux. Et je vous ai dit "ces données proviennent d'une distribution normale".

"Pas du tout," dites-vous, "Il est évident que ceux-ci ne sont pas normaux!"

"Qui a dit que les données étaient normales?" Je dis. "J'ai seulement dit qu'ils provenaient d'une distribution normale."

"Un dans le même!" vous dites. "Nous savons qu'un histogramme d'un échantillon raisonnablement grand à partir d'une distribution normale aura tendance à avoir l'air à peu près normal!"

"Mais," dis-je, "je n'ai jamais dit que les données avaient été échantillonnées indépendamment de la distribution normale. Les DO proviennent d'une distribution normale, mais ce ne sont pas des tirages indépendants."

L'hypothèse d'indépendance (conditionnelle) dans la modélisation statistique est là pour empêcher les smart-alecks comme moi d'ignorer la distribution des résidus et de mal appliquer le modèle.

Deux notes finales

1) Le terme "dés de la nature" n'est pas le mien à l'origine, mais malgré la consultation de quelques références, je ne peux pas comprendre où je l'ai obtenu dans ce contexte.

2) Certains modèles statistiques (par exemple les modèles autorégressifs) ne nécessitent pas l'indépendance des observations de cette manière. En particulier, ils permettent à la distribution d'échantillonnage pour une observation donnée de dépendre non seulement de covariables fixes, mais également des données qui l'ont précédée.

Jacob Socolar
la source
Merci pour cela. J'aime que ce soit mis d'une manière très accessible. Vous abordez la question de savoir comment cela se passe pour l'enseignant, pouvez-vous étendre la discussion pour aborder également l'idée du sexe en tant que covariable?
gung - Rétablir Monica