J'étudie deux populations géographiquement isolées de la même espèce. En examinant les distributions, je vois que les deux sont bimodales (il y a une certaine saisonnalité dans leur occurrence), mais les pics dans une population sont beaucoup plus élevés et beaucoup plus étroits (c'est-à-dire que la variance des pics locaux est plus petite).
Quel type de test statistique serait approprié pour déterminer si ces différences sont significatives?
Pour clarifier, mon axe y est le nombre d'individus identifiés dans un piège un jour particulier, et l'axe x est le jour julien.
Réponses:
Ces distributions sont-elles quelque chose au fil du temps? Ça compte, peut-être? (Si c'est le cas, vous pourriez avoir besoin de quelque chose de très différent des discussions ici jusqu'à présent)
Ce que vous décrivez ne semble pas être très bien perçu comme une différence de variance des distributions.
On dirait que vous décrivez quelque chose de vaguement comme ça (ignorez les chiffres sur les axes, c'est juste pour donner une idée du type général de modèle que vous semblez décrire):
Si c'est vrai, alors considérez:
Alors que la largeur de chaque pic autour des centres locaux est plus étroite pour la courbe bleue, la variance des distributions rouge et bleue ne diffère guère dans l'ensemble.
Si vous identifiez au préalable les modes et les antimodes, vous pourrez alors mesurer la variabilité locale.
la source
Tout d'abord, je pense que vous devriez considérer les distributions saisonnières séparément, car la distribution bimodale est probablement le résultat de deux processus assez distincts. Les deux distributions pourraient être contrôlées par des mécanismes différents, de sorte que, par exemple, les distributions hivernales pourraient être plus sensibles au climat annuel. Si vous voulez examiner les différences de population et les raisons de celles-ci, je pense qu'il est donc plus utile d'étudier séparément les répartitions saisonnières.
En ce qui concerne un test, vous pouvez essayer le test de Levine (essentiellement un test d'homoscédasticité), qui est utilisé pour comparer les variances entre les groupes. Le test de Bartlett est une alternative, mais le test de Levene est censé être plus robuste à la non-normalité (en particulier lors de l'utilisation de la médiane pour les tests). Dans R, les tests de Levene et Bartlett se trouvent dans
library(car)
.la source
leveneTest(y ~ as.factor(group), data= datafile)
pour un test de différence de variance entre les groupes, et si vous utilisez l'option `center =" médiane ", il est plus robuste à la non-normalité. Strictement, je pense que son test appelé Brown-Forsythe est basé sur la médiane.Je suis d'accord avec ce que d'autres ont dit - à savoir que "variance" est probablement le mauvais mot à utiliser (vu que la fonction que vous envisagez n'est pas une distribution de probabilité mais une série chronologique).
Je pense que vous voudrez peut-être aborder ce problème sous un angle différent - il suffit d'adapter les deux séries temporelles avec des courbes BASSE. Vous pouvez calculer des intervalles de confiance à 95% et commenter qualitativement leurs formes. Je ne suis pas sûr que vous ayez besoin de faire quelque chose de plus sophistiqué que cela.
J'ai écrit du code MATLAB ci-dessous pour illustrer ce que je dis. Je suis un peu pressé mais je pourrai bientôt apporter des clarifications. Une grande partie de ce que j'ai fait peut être prise directement à partir d'ici: http://blogs.mathworks.com/loren/2011/01/13/data-driven-fitting/
Vous voudrez peut-être normaliser les deux séries chronologiques pour comparer leurs tendances relatives plutôt que leurs niveaux absolus.
Maintenant, faites des ajustements LOWESS ...
Enfin, vous pouvez créer des bandes de confiance à 95% comme suit:
Vous pouvez maintenant interpréter le chiffre final comme vous le souhaitez, et vous avez les ajustements LOWESS pour confirmer votre hypothèse selon laquelle les pics dans la courbe rouge sont en fait plus larges que la courbe bleue. Si vous avez une meilleure idée de la fonction, vous pouvez effectuer une régression non linéaire à la place.
Modifier: Sur la base de quelques commentaires utiles ci-dessous, j'ajoute plus de détails sur l'estimation explicite des largeurs de pic. Tout d'abord, vous devez trouver une définition de ce que vous considérez comme un «pic» en premier lieu. Peut-être n'importe quelle bosse qui dépasse un certain seuil (quelque chose comme 0,05 dans les parcelles que j'ai faites ci-dessus). Le principe de base est que vous devez trouver un moyen de séparer les pics "réels" ou "notables" du bruit.
Ensuite, pour chaque pic, vous pouvez mesurer sa largeur de deux manières. Comme je l'ai mentionné dans les commentaires ci-dessous, je pense qu'il est raisonnable de regarder la "demi-largeur maximale" mais vous pouvez également regarder le temps total pendant lequel le pic se situe au-dessus de votre seuil. Idéalement, vous devez utiliser plusieurs mesures différentes de la largeur du pic et indiquer dans quelle mesure vos résultats ont été cohérents avec ces choix.
Quelle que soit la ou les mesures de votre choix, vous pouvez utiliser le bootstrap pour calculer un intervalle de confiance pour chaque pic de chaque trace.
Ce code crée 1000 ajustements bootstrap pour les traces bleues et rouges dans les tracés ci-dessus. Un détail que je vais passer en revue est le choix du facteur de lissage 0,15 - vous pouvez choisir ce paramètre de telle sorte qu'il minimise l'erreur de validation croisée (voir le lien que j'ai publié). Il ne vous reste plus qu'à écrire une fonction qui isole les pics et estime leur largeur:
Ensuite, vous exécutez ce code sur les 1000 courbes de chaque jeu de données et calculez les 2,5e et 97,5e centiles pour la largeur de chaque pic. Je vais illustrer cela sur la série temporelle Y1 - vous feriez de même pour la série temporelle Y2 ou tout autre ensemble de données d'intérêt.
Si vous le souhaitez, vous pouvez effectuer des tests d'hypothèse plutôt que de calculer des intervalles de confiance. Notez que le code ci-dessus est simpliste - il suppose que chaque courbe inférieure amorcée aura 2 pics. Cette hypothèse n'est pas toujours valable, alors soyez prudent. J'essaie simplement d'illustrer l'approche que j'adopterais.
Remarque: la fonction "mylowess" est donnée dans le lien que j'ai posté ci-dessus. Voilà à quoi ça ressemble ...
la source