Existe-t-il un test d'hypothèse pour savoir si une variable dépendante normalement distribuée est associée à une variable distribuée directionnellement ?
Par exemple, si l' heure de la journée est la variable explicative (et en supposant que des choses comme le jour de la semaine, le mois de l'année, etc. ne sont pas pertinentes) - c'est ainsi que l'on doit tenir compte du fait que 23 heures a 22 heures d' avance sur 1 heure, et aussi 2 heures derrière 1h du matin dans un test d'association? Puis-je tester si l'heure continue de la journée explique la variable dépendante sans supposer que 12:00 minuit ne suit pas une minute après 23h59?
Ce test s'applique-t-il également aux variables explicatives directionnelles discrètes ( modulaires ?)? Ou cela nécessite-t-il un test séparé? Par exemple, comment tester si la variable dépendante est expliquée par le mois de l'année (en supposant que le jour et la saison de l'année et une année ou une décennie spécifique ne sont pas pertinents). Le traitement du mois de l'année ignore catégoriquement la commande. Mais le fait de traiter le mois de l'année comme une variable ordinale standard (disons Jan = 1 ... Dec = 12) ignore que janvier survient deux mois après novembre.
Réponses:
En général, je pense qu'il est plus fructueux scientifiquement et statistiquement de commencer par poser une question plus large et différente, à savoir dans quelle mesure une réponse peut-elle être prédite à partir d'un prédicteur circulaire. Je dis ici circulaire plutôt que directionnel , en partie parce que ce dernier comprend des espaces sphériques et encore plus fabuleux, qui ne peuvent pas tous être couverts par une seule réponse; et en partie parce que vos exemples, le moment de la journée et le moment de l'année , sont tous deux circulaires. Un autre exemple majeur est la direction de la boussole (pertinente pour les vents, les mouvements d'animaux ou humains, les alignements, etc.), qui figure dans de nombreux problèmes circulaires: en effet, pour certains scientifiques, c'est un point de départ plus évident.
Chaque fois que vous pouvez vous en tirer, l'utilisation des fonctions sinus et cosinus du temps dans une sorte de modèle de régression est une méthode de modélisation simple et facile à mettre en œuvre. C'est le premier port d'escale pour de nombreux exemples biologiques et / ou environnementaux. (Les deux types sont souvent combinés, car les phénomènes biotiques montrant la saisonnalité répondent généralement directement ou indirectement au climat ou aux conditions météorologiques.)
Pour le concret, imaginez des mesures de temps sur 24 heures ou 12 mois, de sorte que par exemple
décrivent chacun un cycle sur toute la journée ou l'année. Un test formel de l'absence de relation entre une réponse mesurée ou comptée et un certain temps circulaire serait alors un test standard pour savoir si les coefficients du sinus et du cosinus sont conjointement nuls dans un modèle linéaire généralisé avec le sinus et le cosinus comme prédicteurs, un lien et une famille appropriés étant choisi en fonction de la nature de la réponse.
La question de la distribution marginale de la réponse (normale ou autre) est dans cette approche secondaire et / ou à traiter par choix familial.
Le mérite des sinus et cosinus est naturellement qu'ils sont périodiques et s'enroulent automatiquement, de sorte que les valeurs au début et à la fin de chaque jour ou année sont nécessairement identiques. Il n'y a pas de problème avec les conditions aux limites, car il n'y a pas de limite.
Cette approche a été appelée régression circulaire, périodique, trigonométrique et de Fourier. Pour un examen du didacticiel d'introduction, voir ici
En pratique,
Ces tests montrent généralement des résultats extrêmement importants aux niveaux conventionnels chaque fois que nous nous attendons à une saisonnalité. La question la plus intéressante est alors la courbe saisonnière précise estimée, et si nous avons besoin d'un modèle plus compliqué avec d'autres termes sinusoïdaux aussi.
Rien n'exclut également d'autres prédicteurs, auquel cas nous avons simplement besoin de modèles plus complets avec d'autres prédicteurs inclus, par exemple des sinus et cosinus pour la saisonnalité et d'autres prédicteurs pour tout le reste.
À un moment donné, en fonction conjointement des données, du problème et des goûts et de l'expérience du chercheur, il peut devenir plus naturel de mettre l'accent sur l'aspect série temporelle du problème et de construire un modèle avec une dépendance temporelle explicite. En effet, certaines personnes statistiquement nieraient qu'il n'y ait aucune autre façon de l'aborder.
Ce qui est facilement nommé tendance (mais pas toujours aussi facilement identifiable) relève du # 2 ou du # 3, voire des deux.
De nombreux économistes et autres spécialistes des sciences sociales préoccupés par la saisonnalité des marchés, les économies nationales et internationales ou d'autres phénomènes humains sont généralement plus impressionnés par les possibilités de variabilité plus compliquée chaque jour ou (plus communément) chaque année. Souvent, mais pas toujours, la saisonnalité est une nuisance à supprimer ou à ajuster, contrairement aux scientifiques en biologie et en environnement qui considèrent souvent la saisonnalité comme intéressante et importante, même l'objectif principal d'un projet. Cela dit, les économistes et d'autres adoptent également souvent une approche de type régression, mais avec des munitions un ensemble de variables indicatrices (factices), le plus simplement variables pour chaque mois ou chaque trimestre de l'année0,1 . Cela peut être un moyen pratique d'essayer de saisir les effets des jours fériés, des périodes de vacances, des effets secondaires des années scolaires, etc., ainsi que des influences ou des chocs d'origine climatique ou météorologique. Compte tenu de ces différences, la plupart des observations ci-dessus s'appliquent également aux sciences économiques et sociales.
Les attitudes et les approches des épidémiologistes et des statisticiens médicaux préoccupés par les variations de la morbidité, de la mortalité, des admissions à l'hôpital, des visites à la clinique, etc., ont tendance à se situer entre ces deux extrêmes.
À mon avis, diviser des jours ou des années en deux pour comparer est généralement arbitraire, artificiel et, au mieux, délicat. Il ignore également le type de structure lisse généralement présent dans les données.
EDIT Le compte jusqu'à présent ne traite pas de la différence entre le temps discret et le temps continu, mais d'après mon expérience, je ne le considère pas comme un gros problème dans la pratique.
Mais des choix précis dépendent de la façon dont les données arrivent et du modèle de changement.
Si les données étaient trimestrielles et humaines, j'aurais tendance à utiliser des variables indicatrices (par exemple, les trimestres 3 et 4 sont souvent différents). S'il est mensuel et humain, le choix n'est pas clair, mais vous devrez travailler dur pour vendre des sinus et des cosinus à la plupart des économistes. Si mensuelle ou plus fine et biologique ou environnementale, certainement des sinus et des cosinus.
EDIT 2 Plus de détails sur la régression trigonométrique
Un détail distinctif de la régression trigonométrique (nommé d'une autre manière si vous préférez) est que les termes sinus et cosinus sont presque toujours mieux présentés à un modèle par paires. Nous mesurons d'abord l'heure de la journée, l'heure de l'année ou la direction de la boussole de sorte qu'elle soit représentée sous la forme d'un angle sur le cercle en radians, donc sur l'intervalle . Ensuite, nous utilisons autant de paires que nécessaire dans un modèle. (Dans les statistiques circulaires, les conventions trigonométriques ont tendance à l'emporter sur les conventions statistiques, de sorte que les symboles grecs tels que sont utilisés pour les variables ainsi que pour les paramètres.)[ 0 ,θ [0,2π] sinkθ,coskθ,k=1,2,3,… θ,ϕ,ψ
Si nous proposons une paire de prédicteurs tels que à un modèle de régression, alors nous avons des estimations de coefficient, disons , pour les termes du modèle, à savoir . C'est un moyen d'ajuster la phase ainsi que l'amplitude d'un signal périodique. Autrement dit, une fonction telle que peut être réécrite commesinθ,cosθ b1,b2 b1sinθ,b2cosθ sin(θ+ϕ)
mais et représentant la phase sont estimés dans l'ajustement du modèle. De cette façon, nous évitons un problème d'estimation non linéaire.cosϕ sinϕ
Si nous utilisons pour modéliser la variation circulaire, alors automatiquement le maximum et le minimum de cette courbe sont séparés d'un demi-cercle. Il s'agit souvent d'une très bonne approximation des variations biologiques ou environnementales, mais à l'inverse, nous pourrions avoir besoin de plusieurs termes supplémentaires pour saisir la saisonnalité économique en particulier. Cela pourrait être une très bonne raison d'utiliser à la place des variables indicatrices, ce qui conduit immédiatement à des interprétations simples des coefficients.b1sinθ+b2cosθ
la source
Voici une option sans distribution, car il semble que ce soit ce que vous recherchez de toute façon. Elle n'est pas particulière au domaine de la statistique circulaire, dont je suis assez ignorant, mais elle s'applique ici et dans bien d'autres contextes.
DéfinissezZ:=(X,Y) , et supposez que vous ayez observations .m zi=(xi,yi)
Maintenant, effectuez un test en utilisant le critère d'indépendance de Hilbert Schmidt (HSIC), comme dans l'article suivant:
C'est:
Définir un noyau pour . Nous entendons ici un noyau au sens d'une méthode de noyau , c'est-à-dire un noyau d' un RKHS .k X
Définissez un noyau pour , de la même manière. Pour dans le noyau gaussien, ci-dessus, est un défaut raisonnable.l Y Y Rn
Soient , et soient les matrices de telle sorte que , , et est la matrice de centrage . Ensuite, la statistique de test a de belles propriétés lorsqu'elle est utilisée comme test d'indépendance. Sa distribution nulle peut être approximée soit par correspondance de moment à une distribution gamma (efficace sur le plan des calculs), soit par bootstrap (plus précis pour les petits échantillons).K L m × m K i j = k ( x i , x j ) L iH K L m×m Kij=k(xi,xj) Lij=l(yi,yj) H H=I−1m11T 1m2tr(KHLH)
Le code Matlab pour effectuer cela avec les noyaux RBF est disponible auprès du premier auteur ici .
Cette approche est agréable car elle est générale et a tendance à bien fonctionner. Les principaux inconvénients sont:
1. Ceci est fréquemment utilisé comme noyau de lissage pour les données circulaires, mais je n'ai trouvé dans aucune recherche rapide personne l'utilisant comme noyau RKHS. Néanmoins, il est défini positivement par le théorème de Bochner , puisque la forme invariante par décalage est proportionnelle au pdf d'une distribution de von Mises avec une moyenne de 0, dont la fonction caractéristique est proportionnelle à une distribution uniforme sur son support .[ - π , π ]
la source
Vous pouvez exécuter un test t entre la moyenne des «moitiés» opposées de la période, par exemple en comparant la valeur moyenne de 12 h à 12 h avec la valeur moyenne de 12 h à 12 h. Et puis comparez la valeur moyenne de 18h à 6h avec la valeur moyenne de 6h à 18h.
Ou si vous avez suffisamment de données, vous pouvez diviser la période en segments plus petits (par exemple, toutes les heures) et effectuer un test t entre chaque paire de segments, tout en corrigeant les comparaisons multiples.
Alternativement, pour une analyse plus "continue" (c'est-à-dire sans segmentation arbitraire), vous pouvez exécuter des régressions linéaires contre les fonctions sinus et cosinus de votre variable directionnelle (avec la bonne période), qui "circulariseront" automatiquement vos données:
Le principal problème avec une telle approche, c'est qu'il sera difficile de s'assurer que la phase de votre modèle est définie pour choisir la corrélation maximale, par conséquent, vous devrez peut-être essayer plusieurs phases différentes, ou bien sélectionner la phase à l'œil pour formuler votre valeur hypothétique :a
Cependant, dans l' idéal , vous devez formuler votre hypothèse (par exemple, l' après - midi sont plus actifs que le matin), puis régler le approprié avant même regarder les données.a
EDIT: Une autre idée est que vous pouvez exécuter une régression multiple contre DEUX les fonctions sinus et cosinus de la variable directionnelle en même temps (entre votre variable normale , plus et ) comme cela devrait prendre en compte la véritable "direction", de la même manière que les fonctions sinus et cosinus définissent ensemble les coordonnées x et y d'un cercle complet. Ensuite, vous n'auriez pas à vous soucier du problème de phase séparément, car il serait pris en charge automatiquement. Je n'ai jamais vu cela se faire auparavant, mais je ne vois pas pourquoi cela ne devrait pas fonctionner.x ′ x ″y x′ x′′
En tout cas, je pense que vous devez faire quelques hypothèses concernant la période, puis tester en conséquence.
la source