Test d'échantillonnage IID

16

Comment testeriez-vous ou vérifiez-vous que l'échantillonnage est IID (indépendant et identique)? Notez que je ne veux pas dire gaussien et identique, juste IID.

Et l'idée qui me vient à l'esprit est de diviser à plusieurs reprises l'échantillon en deux sous-échantillons de taille égale, d'effectuer le test de Kolmogorov-Smirnov et de vérifier que la distribution des valeurs de p est uniforme.

Tout commentaire sur cette approche et toute suggestion sont les bienvenus.

Clarification après le démarrage de la prime: je recherche un test général qui peut être appliqué aux données non chronologiques.

gui11aume
la source
S'agit-il de données de séries chronologiques?
danas.zuokas
@ gui11aume avez-vous essayé le test du "globe oculaire"? Autrement dit, tracez les données et voyez si elles semblent IID.
Macro
Non. Je ne suis pas sûr de ce que vous voulez dire: tracer les valeurs dans l'ordre où elles viennent (éventuellement au hasard)? Et puis vérifier l'absence de motif de frappe?
gui11aume
1
Avez-vous jeté un œil au "test de fonctionnement"? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent
1
Pardon. J'avais en tête le test de run suivant: apprendre-en-ligne.net/random/run.html (mais c'est écrit en français)
Stéphane Laurent

Réponses:

14

Ce que vous concluez si les données sont des IID provient d'informations externes, pas des données elles-mêmes. En tant que scientifique, vous devez déterminer s'il est raisonnable de supposer les données IID en fonction de la façon dont les données ont été collectées et d'autres informations externes.

Prenons quelques exemples.

Scénario 1: Nous générons un ensemble de données indépendamment d'une distribution unique qui se trouve être un mélange de 2 normales.

Scénario 2: Nous générons d'abord une variable de genre à partir d'une distribution binomiale, puis au sein des hommes et des femmes, nous générons indépendamment des données à partir d'une distribution normale (mais les normales sont différentes pour les hommes et les femmes), puis nous supprimons ou perdons les informations sur le sexe.

Dans le scénario 1, les données sont IID et dans le scénario 2, les données ne sont clairement pas distribuées de manière identique (différentes distributions pour les hommes et les femmes), mais les 2 distributions pour les 2 scénarios ne se distinguent pas des données, vous devez savoir des choses sur la façon dont les données a été généré pour déterminer la différence.

Scénario 3: Je prends un échantillon aléatoire simple de personnes vivant dans ma ville et je fais une enquête et j'analyse les résultats pour faire des inférences sur toutes les personnes dans la ville.

Scénario 4: Je prends un échantillon aléatoire simple de personnes vivant dans ma ville et je fais une enquête et j'analyse les résultats pour faire des déductions sur toutes les personnes dans le pays.

Dans le scénario 3, les sujets seraient considérés comme indépendants (simple échantillon aléatoire de la population d'intérêt), mais dans le scénario 4, ils ne seraient pas considérés comme indépendants parce qu'ils étaient sélectionnés dans un petit sous-ensemble de la population d'intérêt et la proximité géographique imposerait probablement dépendance. Mais les 2 jeux de données sont identiques, c'est la manière dont nous avons l'intention d'utiliser les données qui détermine s'ils sont indépendants ou dépendants dans ce cas.

Il n'y a donc aucun moyen de tester en utilisant uniquement les données pour montrer que les données sont IID, les tracés et autres diagnostics peuvent montrer certains types de non-IID, mais leur absence ne garantit pas que les données sont IID. Vous pouvez également comparer à des hypothèses spécifiques (IID normal est plus facile à réfuter que juste IID). Tout test n'est encore qu'une règle, mais le fait de ne pas rejeter les tests ne prouve jamais qu'il s'agit d'un IID.

Les décisions quant à savoir si vous êtes prêt à supposer que les conditions de l'IID sont respectées doivent être prises en fonction de la science de la façon dont les données ont été collectées, de leur lien avec d'autres informations et de la manière dont elles seront utilisées.

Modifications:

Voici un autre ensemble d'exemples de non-identiques.

Scénario 5: les données sont des résidus d'une régression où il y a hétéroscédasticité (les variances ne sont pas égales).

Scénario 6: les données proviennent d'un mélange de normales avec une moyenne de 0 mais des variances différentes.

Dans le scénario 5, nous pouvons clairement voir que les résidus ne sont pas distribués de manière identique si nous représentons les résidus par rapport aux valeurs ajustées ou à d'autres variables (prédicteurs ou prédicteurs potentiels), mais les résidus eux-mêmes (sans les informations externes) ne pourraient pas être distingués du scénario 6.

Greg Snow
la source
La première partie de cette réponse, en particulier, me semble un peu confuse (ou déroutante). Être iid est une propriété mathématique bien définie d'un ensemble fini de variables aléatoires . Vos scénarios 1 et 2 sont identiques si les variables aléatoires du deuxième cas sont obtenues "après avoir perdu les informations sur le sexe". Ils sont iid dans les deux cas!
cardinal
GregSnow Je ne suis pas entièrement d'accord avec votre affirmation. Il se peut que vous sachiez que les données proviennent d'une séquence de variables aléatoires identiques. Vous ne savez pas exactement quel modèle l'a généré. Il se peut qu'ils soient générés indépendamment ou proviennent alternativement d'une série chronologique stationnaire. Pour décider quel est le cas, supposez que vous savez que la distribution identique est normale. Ensuite, les deux possibilités tombent dans la catégorie d'une séquence stationnaire et ce sera le cas si et seulement toutes les autocorrélations de décalage non nul sont égales à 0. Il est parfaitement raisonnable de tester pour voir si la correla
Michael R. Chernick
2
@cardinal, acceptez-vous donc que les données du scénario 2 ne soient pas distribuées de manière identique avant de perdre les informations sur le sexe? Nous aurions donc un cas où ils ne sont pas identiques, mais la seule façon de faire la différence est d'utiliser des informations en dehors de la variable examinée (sexe dans ce cas). Oui, être IID est une propriété mathématique bien définie, mais il en va de même pour un entier, pouvez-vous tester si le point de données 3. est un entier stocké sous forme de nombre à virgule flottante ou une valeur continue qui a été arrondie sans informations externes sur son origine de.
Greg Snow
2
ZXiXj,ijXi|ZXj|ZZZ
StasK
Mais tout ce que vous dites ci-dessus utilise des informations sur la façon dont les données ont été collectées / générées, pas seulement les données elles-mêmes. Et même si nous avons des données qui soutiennent qu'il n'y a pas d'autocorrélation de séries chronologiques qui ne nous dit rien sur la corrélation spatiale ou d'autres types de non-indépendance. Pouvons-nous vraiment tester pour chaque type de dépendance possible et obtenir des résultats significatifs? ou devrions-nous utiliser des informations sur la façon dont les données ont été collectées pour guider les tests les plus susceptibles d'être significatifs?
Greg Snow
5

Si les données ont un ordre d'index, vous pouvez utiliser des tests de bruit blanc pour les séries chronologiques. Essentiellement, cela signifie tester que les autocorrélations à tous les décalages non nuls sont 0. Cela gère la partie d'indépendance. Je pense que votre approche tente principalement de traiter la partie de l'hypothèse distribuée de manière identique. Je pense qu'il y a des problèmes avec votre approche. Je pense que vous avez besoin de beaucoup de divisions pour obtenir suffisamment de valeurs de p pour tester l'uniformité. Ensuite, chaque test KS perd de la puissance. Si vous utilisez des divisions qui se chevauchent sur des parties de l'ensemble de données, les tests seront corrélés. Avec un petit nombre de divisions, le test d'uniformité manque de puissance. Mais avec de nombreuses divisions, le test d'uniformité peut être puissant, mais pas les tests KS. Il semble également que cette approche ne permettra pas de détecter la dépendance entre les variables.

@ gu11aume Je ne suis pas sûr de ce que vous demandez avec un test général pour les séries non temporelles. Les données spatiales fournissent une forme de données non chronologiques. Là, la fonction appelée variogramme pourrait être examinée. Pour les séquences unidimensionnelles, je ne vois pas beaucoup de différence entre les séquences ordonnées par le temps et toute autre manière de classer les données. Une fonction d'autocorrélation peut encore être définie et testée. Lorsque vous dites que vous voulez tester l'indépendance de l'échantillonnage, je pense que vous avez un ordre dans lequel les échantillons sont collectés. Je pense donc que tous les cas unidimensionnels fonctionnent de la même manière.

Michael R. Chernick
la source
2
(+1) car c'est ce que je pensais, mais Re: "Si les données ont un ordre d'index, vous pouvez utiliser des tests de bruit blanc pour les séries chronologiques. Cela signifie essentiellement tester que les autocorrélations à tous les décalages non nuls sont 0." - cette logique ne s'applique que lorsque vous avez affaire à une série chronologique stationnaire, non? Sinon, vous pourriez obtenir des résultats trompeurs sur les corrélations retardées. Par exemple, que se passe-t-il si seule la partie "ultérieure" de la série chronologique est autocorrélée?
Macro
1
@Macro Je pensais que c'était ce que vous aviez en tête sur la base de votre question au PO. Mais je ne pensais pas qu'il était nécessaire d'attendre sa réponse pour le souligner. Cela s'applique lorsque vous recherchez l'indépendance. Mais je comprends votre point. En pratique, vous ne vérifiez que les k premiers décalages. Si la série était stationnaire, les corrélations diminueraient avec k mais pas pour les séries non stationnaires. Donc, au moins en théorie, vous manqueriez la corrélation à grands retards pour une série non stationnaire.
Michael R. Chernick
2
cor(yt,ys)=f(s,t)f(s,t)|st|
Merci pour ta réponse Michael! Vous avez raison: dans le cas où les données sont une série temporelle, la meilleure approche est de vérifier l'auto-corrélation. Quant à votre critique de l'approche KS divisée, vous avez également un point. Donc, il nous reste encore aucun test dans le cas général (non chronologique) semble-t-il.
gui11aume
2
La première autocorrélation non nulle est à un décalage de 60 et uniquement à d'autres multiples de 60. Si la série chronologique a une longueur de 55, nous ne pouvons même pas observer deux décalages de 60 points. Sowe ne peut pas vérifier si la corrélation du décalage 60 est 0 ou non. Si la longueur de la série est de 65, nous pouvons estimer la corrélation de décalage 60 mais sur la base de seulement 5 paires de décalage 60. La variance de l'estimation est donc importante et nous n'aurons pas le pouvoir de détecter cette corrélation non nulle.
Michael R. Chernick