J'ai un ensemble de données, et x . Je voudrais tester l'hypothèse suivante: il y a un pic en y ; c'est-à-dire que x augmente, y augmente d'abord puis diminue.
Ma première idée était d'installer et x 2 dans un reflex. C'est-à-dire que si je trouve que le coefficient avant x est significativement positif et que le coefficient avant x 2 est significativement négatif, alors j'ai le soutien de l'hypothèse. Cependant, cela ne vérifie qu'un seul type de relation (quadratique) et peut ne pas nécessairement saisir l'existence du pic.
J'ai alors pensé à trouver , une telle région de (valeurs triées de) x , que b soit entre a et c , deux autres régions de x qui contiennent au moins autant de points que b , et que ¯ y b > ¯ y a et ¯ y b > ¯ y c de manière significative. Si l'hypothèse est vraie, nous devrions nous attendre à beaucoup de ces régions b . Ainsi, si le nombre de b est suffisamment grand, l'hypothèse devrait être appuyée.
Pensez-vous que je suis sur la bonne voie pour trouver un test adapté à mon hypothèse? Ou suis-je en train d'inventer la roue et il existe une méthode établie pour ce problème? J'apprécierai grandement votre contribution.
MISE À JOUR. Ma variable dépendante est count (entier non négatif).
la source
Réponses:
Je pensais aussi à l'idée de lissage. Mais il y a tout un domaine appelé méthodologie de surface de réponse qui recherche les pics dans les données bruyantes (cela implique principalement l'utilisation d'ajustements quadratiques locaux aux données) et il y avait un article célèbre dont je me souviens avec "Bump hunt" dans le titre. Voici quelques liens vers des livres sur la méthodologie de la surface de réponse. Les livres de Ray Myer sont particulièrement bien écrits. Je vais essayer de trouver le papier de chasse à la bosse.
Méthodologie des surfaces de réponse: optimisation des processus et des produits à l'aide d'expériences conçues
Méthodologie de surface de réponse et sujets connexes
Méthodologie de surface de réponse
Création de modèles empiriques et surfaces de réponse
Bien que ce ne soit pas l'article que je cherchais, voici un article très pertinent de Jerry Friedman et Nick Fisher qui traite de ces idées appliquées aux données de grande dimension.
Voici un article avec quelques commentaires en ligne.
J'espère donc que vous apprécierez au moins ma réponse. Je pense que vos idées sont bonnes et sur la bonne voie, mais oui, je pense que vous réinventez peut-être la roue et j'espère que vous et d'autres examinerez ces excellentes références.
la source
Même si vous n'avez pas répondu à ma question, si ma supposition est juste, vous recherchez un test de bruit blanc qui s'élève dans le domaine fréquentiel pour montrer que le spectre est plat. Ainsi, le test du périodogramme de Fisher qui dans cette référence est appelé kappa de Fisher pourrait être utilisé. Voir le lien.
http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf
Le test de Bartlett est également mentionné dans la référence. Rejeter maintenant l'hypothèse nulle revient à trouver un pic significatif dans le périodogramme. Cela signifierait qu'une composante périodique existe dans la série chronologique.
Parce que le test est dans le domaine fréquentiel et implique des ordonnées de périodogramme, les ordonnées ont une distribution chi carré 2 sous l'hypothèse nulle et sont indépendantes. Cette distribution spéciale se produit uniquement en raison de la transformation dans le domaine fréquentiel. Si x était temps, cela ne fonctionnerait pas dans le domaine temporel ou, en général, la distribution des ys ne serait pas un chi carré indépendant.
la source