Comment testeriez-vous ou vérifiez-vous que l'échantillonnage est IID (indépendant et identique)? Notez que je ne veux pas dire gaussien et identique, juste IID.
Et l'idée qui me vient à l'esprit est de diviser à plusieurs reprises l'échantillon en deux sous-échantillons de taille égale, d'effectuer le test de Kolmogorov-Smirnov et de vérifier que la distribution des valeurs de p est uniforme.
Tout commentaire sur cette approche et toute suggestion sont les bienvenus.
Clarification après le démarrage de la prime: je recherche un test général qui peut être appliqué aux données non chronologiques.
Réponses:
Ce que vous concluez si les données sont des IID provient d'informations externes, pas des données elles-mêmes. En tant que scientifique, vous devez déterminer s'il est raisonnable de supposer les données IID en fonction de la façon dont les données ont été collectées et d'autres informations externes.
Prenons quelques exemples.
Scénario 1: Nous générons un ensemble de données indépendamment d'une distribution unique qui se trouve être un mélange de 2 normales.
Scénario 2: Nous générons d'abord une variable de genre à partir d'une distribution binomiale, puis au sein des hommes et des femmes, nous générons indépendamment des données à partir d'une distribution normale (mais les normales sont différentes pour les hommes et les femmes), puis nous supprimons ou perdons les informations sur le sexe.
Dans le scénario 1, les données sont IID et dans le scénario 2, les données ne sont clairement pas distribuées de manière identique (différentes distributions pour les hommes et les femmes), mais les 2 distributions pour les 2 scénarios ne se distinguent pas des données, vous devez savoir des choses sur la façon dont les données a été généré pour déterminer la différence.
Scénario 3: Je prends un échantillon aléatoire simple de personnes vivant dans ma ville et je fais une enquête et j'analyse les résultats pour faire des inférences sur toutes les personnes dans la ville.
Scénario 4: Je prends un échantillon aléatoire simple de personnes vivant dans ma ville et je fais une enquête et j'analyse les résultats pour faire des déductions sur toutes les personnes dans le pays.
Dans le scénario 3, les sujets seraient considérés comme indépendants (simple échantillon aléatoire de la population d'intérêt), mais dans le scénario 4, ils ne seraient pas considérés comme indépendants parce qu'ils étaient sélectionnés dans un petit sous-ensemble de la population d'intérêt et la proximité géographique imposerait probablement dépendance. Mais les 2 jeux de données sont identiques, c'est la manière dont nous avons l'intention d'utiliser les données qui détermine s'ils sont indépendants ou dépendants dans ce cas.
Il n'y a donc aucun moyen de tester en utilisant uniquement les données pour montrer que les données sont IID, les tracés et autres diagnostics peuvent montrer certains types de non-IID, mais leur absence ne garantit pas que les données sont IID. Vous pouvez également comparer à des hypothèses spécifiques (IID normal est plus facile à réfuter que juste IID). Tout test n'est encore qu'une règle, mais le fait de ne pas rejeter les tests ne prouve jamais qu'il s'agit d'un IID.
Les décisions quant à savoir si vous êtes prêt à supposer que les conditions de l'IID sont respectées doivent être prises en fonction de la science de la façon dont les données ont été collectées, de leur lien avec d'autres informations et de la manière dont elles seront utilisées.
Modifications:
Voici un autre ensemble d'exemples de non-identiques.
Scénario 5: les données sont des résidus d'une régression où il y a hétéroscédasticité (les variances ne sont pas égales).
Scénario 6: les données proviennent d'un mélange de normales avec une moyenne de 0 mais des variances différentes.
Dans le scénario 5, nous pouvons clairement voir que les résidus ne sont pas distribués de manière identique si nous représentons les résidus par rapport aux valeurs ajustées ou à d'autres variables (prédicteurs ou prédicteurs potentiels), mais les résidus eux-mêmes (sans les informations externes) ne pourraient pas être distingués du scénario 6.
la source
Si les données ont un ordre d'index, vous pouvez utiliser des tests de bruit blanc pour les séries chronologiques. Essentiellement, cela signifie tester que les autocorrélations à tous les décalages non nuls sont 0. Cela gère la partie d'indépendance. Je pense que votre approche tente principalement de traiter la partie de l'hypothèse distribuée de manière identique. Je pense qu'il y a des problèmes avec votre approche. Je pense que vous avez besoin de beaucoup de divisions pour obtenir suffisamment de valeurs de p pour tester l'uniformité. Ensuite, chaque test KS perd de la puissance. Si vous utilisez des divisions qui se chevauchent sur des parties de l'ensemble de données, les tests seront corrélés. Avec un petit nombre de divisions, le test d'uniformité manque de puissance. Mais avec de nombreuses divisions, le test d'uniformité peut être puissant, mais pas les tests KS. Il semble également que cette approche ne permettra pas de détecter la dépendance entre les variables.
@ gu11aume Je ne suis pas sûr de ce que vous demandez avec un test général pour les séries non temporelles. Les données spatiales fournissent une forme de données non chronologiques. Là, la fonction appelée variogramme pourrait être examinée. Pour les séquences unidimensionnelles, je ne vois pas beaucoup de différence entre les séquences ordonnées par le temps et toute autre manière de classer les données. Une fonction d'autocorrélation peut encore être définie et testée. Lorsque vous dites que vous voulez tester l'indépendance de l'échantillonnage, je pense que vous avez un ordre dans lequel les échantillons sont collectés. Je pense donc que tous les cas unidimensionnels fonctionnent de la même manière.
la source