Test d'association pour un DV normalement distribué par des variables indépendantes directionnelles?

Existe-t-il un test d'hypothèse pour savoir si une variable dépendante normalement distribuée est associée à une variable distribuée directionnellement ?

Par exemple, si l' heure de la journée est la variable explicative (et en supposant que des choses comme le jour de la semaine, le mois de l'année, etc. ne sont pas pertinentes) - c'est ainsi que l'on doit tenir compte du fait que 23 heures a 22 heures d' avance sur 1 heure, et aussi 2 heures derrière 1h du matin dans un test d'association? Puis-je tester si l'heure continue de la journée explique la variable dépendante sans supposer que 12:00 minuit ne suit pas une minute après 23h59?

Ce test s'applique-t-il également aux variables explicatives directionnelles discrètes ( modulaires ?)? Ou cela nécessite-t-il un test séparé? Par exemple, comment tester si la variable dépendante est expliquée par le mois de l'année (en supposant que le jour et la saison de l'année et une année ou une décennie spécifique ne sont pas pertinents). Le traitement du mois de l'année ignore catégoriquement la commande. Mais le fait de traiter le mois de l'année comme une variable ordinale standard (disons Jan = 1 ... Dec = 12) ignore que janvier survient deux mois après novembre.

hypothesis-testing modeling circular-statistics Alexis
la source

La réponse pourrait remplir un livre (et il y en a plusieurs). Rendre votre question plus précise pourrait aider à concentrer les réponses sur ce qui compte pour vous.

whuber

@whuber Um ... ça alors ... pouvez-vous m'aider à réduire? Spécifier une distribution pour le DV? Se limiter à un seul test, plutôt qu'à une régression? Je suis un peu perplexe et je ne sais pas par où commencer ...

Alexis

@whuber J'ai essayé de restreindre un peu la question et je serais reconnaissant à tous les pointeurs de la rendre plus utile (je veux vraiment juste un point de départ pour réfléchir aux prédicteurs modulaires). Si c'est maintenant sous une forme décente, je suis susceptible de poursuivre avec une question similaire sur un tel test qui est sans distribution dans le DV.

Alexis

@whuber Mulling l'IV modulaire discret dans un contexte de régression: un modèle mixte à deux niveaux avec l'IV modulaire discret comme identifiant de niveau 2 avec chaque unité de niveau 2 ayant une variable d'effet pré- et post-aléatoire égale à la la valeur précédente et suivante dans le système numérique est-elle sur la bonne voie?

Alexis

Voir ici jstatsoft.org/article/view/v031i10/v31i10.pdf page 16.

amibe

Réponses:

En général, je pense qu'il est plus fructueux scientifiquement et statistiquement de commencer par poser une question plus large et différente, à savoir dans quelle mesure une réponse peut-elle être prédite à partir d'un prédicteur circulaire. Je dis ici circulaire plutôt que directionnel , en partie parce que ce dernier comprend des espaces sphériques et encore plus fabuleux, qui ne peuvent pas tous être couverts par une seule réponse; et en partie parce que vos exemples, le moment de la journée et le moment de l'année , sont tous deux circulaires. Un autre exemple majeur est la direction de la boussole (pertinente pour les vents, les mouvements d'animaux ou humains, les alignements, etc.), qui figure dans de nombreux problèmes circulaires: en effet, pour certains scientifiques, c'est un point de départ plus évident.

Chaque fois que vous pouvez vous en tirer, l'utilisation des fonctions sinus et cosinus du temps dans une sorte de modèle de régression est une méthode de modélisation simple et facile à mettre en œuvre. C'est le premier port d'escale pour de nombreux exemples biologiques et / ou environnementaux. (Les deux types sont souvent combinés, car les phénomènes biotiques montrant la saisonnalité répondent généralement directement ou indirectement au climat ou aux conditions météorologiques.)

Pour le concret, imaginez des mesures de temps sur 24 heures ou 12 mois, de sorte que par exemple

$\sin [2\pi (\text{hour}/24)],\ \ \cos [2\pi (\text{hour}/24)]$

$\sin [2\pi (\text{month}/12)],\ \ \cos [2\pi (\text{month}/12)]$

décrivent chacun un cycle sur toute la journée ou l'année. Un test formel de l'absence de relation entre une réponse mesurée ou comptée et un certain temps circulaire serait alors un test standard pour savoir si les coefficients du sinus et du cosinus sont conjointement nuls dans un modèle linéaire généralisé avec le sinus et le cosinus comme prédicteurs, un lien et une famille appropriés étant choisi en fonction de la nature de la réponse.

La question de la distribution marginale de la réponse (normale ou autre) est dans cette approche secondaire et / ou à traiter par choix familial.

Le mérite des sinus et cosinus est naturellement qu'ils sont périodiques et s'enroulent automatiquement, de sorte que les valeurs au début et à la fin de chaque jour ou année sont nécessairement identiques. Il n'y a pas de problème avec les conditions aux limites, car il n'y a pas de limite.

Cette approche a été appelée régression circulaire, périodique, trigonométrique et de Fourier. Pour un examen du didacticiel d'introduction, voir ici

En pratique,

Ces tests montrent généralement des résultats extrêmement importants aux niveaux conventionnels chaque fois que nous nous attendons à une saisonnalité. La question la plus intéressante est alors la courbe saisonnière précise estimée, et si nous avons besoin d'un modèle plus compliqué avec d'autres termes sinusoïdaux aussi.
Rien n'exclut également d'autres prédicteurs, auquel cas nous avons simplement besoin de modèles plus complets avec d'autres prédicteurs inclus, par exemple des sinus et cosinus pour la saisonnalité et d'autres prédicteurs pour tout le reste.
À un moment donné, en fonction conjointement des données, du problème et des goûts et de l'expérience du chercheur, il peut devenir plus naturel de mettre l'accent sur l'aspect série temporelle du problème et de construire un modèle avec une dépendance temporelle explicite. En effet, certaines personnes statistiquement nieraient qu'il n'y ait aucune autre façon de l'aborder.

Ce qui est facilement nommé tendance (mais pas toujours aussi facilement identifiable) relève du # 2 ou du # 3, voire des deux.

De nombreux économistes et autres spécialistes des sciences sociales préoccupés par la saisonnalité des marchés, les économies nationales et internationales ou d'autres phénomènes humains sont généralement plus impressionnés par les possibilités de variabilité plus compliquée chaque jour ou (plus communément) chaque année. Souvent, mais pas toujours, la saisonnalité est une nuisance à supprimer ou à ajuster, contrairement aux scientifiques en biologie et en environnement qui considèrent souvent la saisonnalité comme intéressante et importante, même l'objectif principal d'un projet. Cela dit, les économistes et d'autres adoptent également souvent une approche de type régression, mais avec des munitions un ensemble de variables indicatrices (factices), le plus simplement variables pour chaque mois ou chaque trimestre de l'année $0, 1$ . Cela peut être un moyen pratique d'essayer de saisir les effets des jours fériés, des périodes de vacances, des effets secondaires des années scolaires, etc., ainsi que des influences ou des chocs d'origine climatique ou météorologique. Compte tenu de ces différences, la plupart des observations ci-dessus s'appliquent également aux sciences économiques et sociales.

Les attitudes et les approches des épidémiologistes et des statisticiens médicaux préoccupés par les variations de la morbidité, de la mortalité, des admissions à l'hôpital, des visites à la clinique, etc., ont tendance à se situer entre ces deux extrêmes.

À mon avis, diviser des jours ou des années en deux pour comparer est généralement arbitraire, artificiel et, au mieux, délicat. Il ignore également le type de structure lisse généralement présent dans les données.

EDIT Le compte jusqu'à présent ne traite pas de la différence entre le temps discret et le temps continu, mais d'après mon expérience, je ne le considère pas comme un gros problème dans la pratique.

Mais des choix précis dépendent de la façon dont les données arrivent et du modèle de changement.

Si les données étaient trimestrielles et humaines, j'aurais tendance à utiliser des variables indicatrices (par exemple, les trimestres 3 et 4 sont souvent différents). S'il est mensuel et humain, le choix n'est pas clair, mais vous devrez travailler dur pour vendre des sinus et des cosinus à la plupart des économistes. Si mensuelle ou plus fine et biologique ou environnementale, certainement des sinus et des cosinus.

EDIT 2 Plus de détails sur la régression trigonométrique

Un détail distinctif de la régression trigonométrique (nommé d'une autre manière si vous préférez) est que les termes sinus et cosinus sont presque toujours mieux présentés à un modèle par paires. Nous mesurons d'abord l'heure de la journée, l'heure de l'année ou la direction de la boussole de sorte qu'elle soit représentée sous la forme d'un angle sur le cercle en radians, donc sur l'intervalle . Ensuite, nous utilisons autant de paires que nécessaire dans un modèle. (Dans les statistiques circulaires, les conventions trigonométriques ont tendance à l'emporter sur les conventions statistiques, de sorte que les symboles grecs tels que sont utilisés pour les variables ainsi que pour les paramètres.) $\theta$ $[0, 2\pi]$ $\sin k\theta, \cos k\theta, k = 1, 2, 3, \dots$ $\theta, \phi, \psi$

Si nous proposons une paire de prédicteurs tels que à un modèle de régression, alors nous avons des estimations de coefficient, disons , pour les termes du modèle, à savoir . C'est un moyen d'ajuster la phase ainsi que l'amplitude d'un signal périodique. Autrement dit, une fonction telle que peut être réécrite comme $\sin \theta, \cos \theta$ $b_1, b_2$ $b_1 \sin \theta, b_2 \cos \theta$ $\sin (\theta + \phi)$

\sin θ \cos ϕ + \cos θ \sin ϕ,

$\sin \theta \cos \phi + \cos \theta \sin \phi,$

mais et représentant la phase sont estimés dans l'ajustement du modèle. De cette façon, nous évitons un problème d'estimation non linéaire. $\cos \phi$ $\sin \phi$

Si nous utilisons pour modéliser la variation circulaire, alors automatiquement le maximum et le minimum de cette courbe sont séparés d'un demi-cercle. Il s'agit souvent d'une très bonne approximation des variations biologiques ou environnementales, mais à l'inverse, nous pourrions avoir besoin de plusieurs termes supplémentaires pour saisir la saisonnalité économique en particulier. Cela pourrait être une très bonne raison d'utiliser à la place des variables indicatrices, ce qui conduit immédiatement à des interprétations simples des coefficients. $b_1 \sin \theta + b_2 \cos \theta$

Nick Cox
la source

Je note un certain chevauchement sans surprise avec la réponse de @Kelvin.

Nick Cox

+1 (en particulier pour avoir utilisé "fabuleux" comme vous l'avez fait! :) Nick Cox, seriez-vous assez aimable pour expliquer explicitement le cas des variables circulaires discrètes , conformément à ma question? Serait-ce aussi simple que l'approche de «modélisation trigonométrique» que vous décrivez à l'aide d'une mesure discrète du temps? Ou faudrait-il des "corrections de continuité" d'une certaine manière?

Alexis

Pour autant que je sache, la seule différence entre les variables circulaires discrètes et continues réside dans l'arrondi des valeurs aux points discrets (par exemple, 14 heures contre 14,12545 heures), comme avec les variables non circulaires, donc il n'y aura pas beaucoup de différence tant que vous appliquez moins d'arrondi avec de petits pas par rapport à la période globale. Fondamentalement, il s'agit simplement d'avoir une erreur d'arrondi ou non. Mieux vaut pas, si vous pouvez l'éviter.

Kelvin

Je suis d'accord que discret et continu ne sont pas très différents. Dans la pratique, de nombreuses mesures sont plus ou moins grossières en ne rapportant que les trimestres, les semestres, les mois, les jours, etc. pour les directions de la boussole. En détail, il existe une différence entre les mesures ponctuelles (la température à un moment précis) et les mesures d'intervalle (par exemple, le total des ventes mensuelles). Je ne regrouperais pas tous ces détails comme une erreur d'arrondi, car parfois il n'y a pas autant d'erreur que d'agrégation ou de moyenne.

Nick Cox

Voici une option sans distribution, car il semble que ce soit ce que vous recherchez de toute façon. Elle n'est pas particulière au domaine de la statistique circulaire, dont je suis assez ignorant, mais elle s'applique ici et dans bien d'autres contextes.

$X$

$Y$ $\mathbb R^d$ $d \ge 1$

Définissez $Z := (X, Y)$ , et supposez que vous ayez observations . $m$ $z_i = (x_i, y_i)$

Maintenant, effectuez un test en utilisant le critère d'indépendance de Hilbert Schmidt (HSIC), comme dans l'article suivant:

Gretton, Fukumizu, Teo, Song, Schölkopf et Smola. Un test statistique d'indépendance du noyau. NIPS 2008. ( pdf )

C'est:

Définir un noyau pour . Nous entendons ici un noyau au sens d'une méthode de noyau , c'est-à-dire un noyau d' un RKHS . $k$ $X$
- Un choix est de représenter $X$ $\mathbb R^2$ $k(x, x') = \exp\left( - \frac{1}{2 \sigma^2} \lVert x - x' \rVert^2 \right)$ $\sigma$ $X$
- Une autre option est de représenter comme un angle, disons dans , et d'utiliser le noyau de von Mises . Ici est un paramètre de douceur. ¹ $X$ $[-\pi, \pi]$ $k(x, x') = \exp\left( \kappa \cos(x - x') \right)$ $\kappa$
Définissez un noyau pour , de la même manière. Pour dans le noyau gaussien, ci-dessus, est un défaut raisonnable. $l$ $Y$ $Y$ $\mathbb R^n$
Soient , et soient les matrices de telle sorte que , , et est la matrice de centrage . Ensuite, la statistique de test a de belles propriétés lorsqu'elle est utilisée comme test d'indépendance. Sa distribution nulle peut être approximée soit par correspondance de moment à une distribution gamma (efficace sur le plan des calculs), soit par bootstrap (plus précis pour les petits échantillons). $H$ $K$ $L$ $m \times m$ $K_{ij} = k(x_i, x_j)$ $L_{ij} = l(y_i, y_j)$ $H$ $H = I - \frac1m 1 1^T$ $\frac{1}{m^2} \mathrm{tr}\left( K H L H \right)$

Le code Matlab pour effectuer cela avec les noyaux RBF est disponible auprès du premier auteur ici .

Cette approche est agréable car elle est générale et a tendance à bien fonctionner. Les principaux inconvénients sont:

$m^2$ complexité de calcul pour calculer la statistique de test; cela peut être réduit avec des approximations du noyau si c'est un problème.
La distribution nulle compliquée. Pour les grands , l'approximation gamma est bonne et pas trop onéreuse; pour les petits , l'amorçage est nécessaire. $m$ $m$
Choix du noyau. Comme présenté ci-dessus, les noyaux et doivent être sélectionnés heuristiquement. Cet article donne un critère non optimal pour sélectionner le noyau; cet article présente une bonne méthode pour une version de données à grande échelle du test qui perd malheureusement de la puissance statistique. Certains travaux sont en cours en ce moment pour un critère presque optimal dans ce cadre, mais malheureusement, il n'est pas encore prêt pour la consommation publique. $k$ $l$

^{1. Ceci est fréquemment utilisé comme noyau de lissage pour les données circulaires, mais je n'ai trouvé dans aucune recherche rapide personne l'utilisant comme noyau RKHS. Néanmoins, il est défini positivement par le théorème de Bochner , puisque la forme invariante par décalage est proportionnelle au pdf d'une distribution de von Mises avec une moyenne de 0, dont la fonction caractéristique est proportionnelle à une distribution uniforme sur son support . $k(x - x')$ $[-\pi, \pi]$}

Dougal
la source

Vous pouvez exécuter un test t entre la moyenne des «moitiés» opposées de la période, par exemple en comparant la valeur moyenne de 12 h à 12 h avec la valeur moyenne de 12 h à 12 h. Et puis comparez la valeur moyenne de 18h à 6h avec la valeur moyenne de 6h à 18h.

Ou si vous avez suffisamment de données, vous pouvez diviser la période en segments plus petits (par exemple, toutes les heures) et effectuer un test t entre chaque paire de segments, tout en corrigeant les comparaisons multiples.

Alternativement, pour une analyse plus "continue" (c'est-à-dire sans segmentation arbitraire), vous pouvez exécuter des régressions linéaires contre les fonctions sinus et cosinus de votre variable directionnelle (avec la bonne période), qui "circulariseront" automatiquement vos données:

x^{'} = s i n (x * 2 π / p e r i o d)

$x' = sin(x * 2\pi/period)$

x^{″} = c o s (x * 2 π / p e r i o d)

$x'' = cos(x * 2\pi/period)$

Le principal problème avec une telle approche, c'est qu'il sera difficile de s'assurer que la phase de votre modèle est définie pour choisir la corrélation maximale, par conséquent, vous devrez peut-être essayer plusieurs phases différentes, ou bien sélectionner la phase à l'œil pour formuler votre valeur hypothétique : $a$

x^{‴} = s i n ((x + a) * 2 π / p e r i o d)

$x''' = sin((x+a) * 2\pi/period)$

Cependant, dans l' idéal , vous devez formuler votre hypothèse (par exemple, l' après - midi sont plus actifs que le matin), puis régler le approprié avant même regarder les données. $a$

EDIT: Une autre idée est que vous pouvez exécuter une régression multiple contre DEUX les fonctions sinus et cosinus de la variable directionnelle en même temps (entre votre variable normale , plus et ) comme cela devrait prendre en compte la véritable "direction", de la même manière que les fonctions sinus et cosinus définissent ensemble les coordonnées x et y d'un cercle complet. Ensuite, vous n'auriez pas à vous soucier du problème de phase séparément, car il serait pris en charge automatiquement. Je n'ai jamais vu cela se faire auparavant, mais je ne vois pas pourquoi cela ne devrait pas fonctionner. $y$ $x'$ $x''$

En tout cas, je pense que vous devez faire quelques hypothèses concernant la période, puis tester en conséquence.

Kelvin
la source

Kelvin, "casser" les données circulaires que vous décrivez semble ignorer précisément le problème que j'ai soulevé à propos de la commande modulaire.

Alexis

Avez-vous lu la deuxième moitié de ma réponse, qui décrit l'analyse continue par régression multiple?

Kelvin

Vous avez raison sur le sinus et le cosinus ensemble. Ceci est expliqué plus en détail dans ma réponse et dans le document de 2006 qu'il cite et dans d'autres références qu'il cite.

Nick Cox

@ Nick - Je n'avais pas vu votre réponse comme vous l'avez posté après mon dernier montage, mais c'est bien que nous soyons arrivés à la même réponse indépendamment car j'étais juste créatif (pensant pratiquement à haute voix) et je n'avais jamais vu cela se faire auparavant.

Kelvin