Recherche d'un pic statistiquement significatif

14

J'ai un ensemble de données, et x . Je voudrais tester l'hypothèse suivante: il y a un pic en y ; c'est-à-dire que x augmente, y augmente d'abord puis diminue.yxyxy

Ma première idée était d'installer et x 2 dans un reflex. C'est-à-dire que si je trouve que le coefficient avant x est significativement positif et que le coefficient avant x 2 est significativement négatif, alors j'ai le soutien de l'hypothèse. Cependant, cela ne vérifie qu'un seul type de relation (quadratique) et peut ne pas nécessairement saisir l'existence du pic.xx2xx2

J'ai alors pensé à trouver , une telle région de (valeurs triées de) x , que b soit entre a et c , deux autres régions de x qui contiennent au moins autant de points que b , et que ¯ y b > ¯ y a et ¯ y b > ¯ y c de manière significative. Si l'hypothèse est vraie, nous devrions nous attendre à beaucoup de ces régions b . Ainsi, si le nombre de b est suffisamment grand, l'hypothèse devrait être appuyée.bxbacxbyb¯>ya¯yb¯>yc¯bb

Pensez-vous que je suis sur la bonne voie pour trouver un test adapté à mon hypothèse? Ou suis-je en train d'inventer la roue et il existe une méthode établie pour ce problème? J'apprécierai grandement votre contribution.

MISE À JOUR. Ma variable dépendante est count (entier non négatif).y

Nikita Samoylov
la source
varie- t-il en douceur avec x ? Si tel est le cas, vous pouvez essayer d'ajuster un modèle comprenant un lisseur (par exemple un GAM), puis calculer les premières dérivées du lisseur ajusté et de leur intervalle de confiance. Si la dérivée est signifiante, alors signifiante décroissante, vous avez une réponse. yx
Reinstate Monica - G. Simpson

Réponses:

6

Je pensais aussi à l'idée de lissage. Mais il y a tout un domaine appelé méthodologie de surface de réponse qui recherche les pics dans les données bruyantes (cela implique principalement l'utilisation d'ajustements quadratiques locaux aux données) et il y avait un article célèbre dont je me souviens avec "Bump hunt" dans le titre. Voici quelques liens vers des livres sur la méthodologie de la surface de réponse. Les livres de Ray Myer sont particulièrement bien écrits. Je vais essayer de trouver le papier de chasse à la bosse.

Méthodologie des surfaces de réponse: optimisation des processus et des produits à l'aide d'expériences conçues

Méthodologie de surface de réponse et sujets connexes

Méthodologie de surface de réponse

Création de modèles empiriques et surfaces de réponse

Bien que ce ne soit pas l'article que je cherchais, voici un article très pertinent de Jerry Friedman et Nick Fisher qui traite de ces idées appliquées aux données de grande dimension.

Voici un article avec quelques commentaires en ligne.

J'espère donc que vous apprécierez au moins ma réponse. Je pense que vos idées sont bonnes et sur la bonne voie, mais oui, je pense que vous réinventez peut-être la roue et j'espère que vous et d'autres examinerez ces excellentes références.

Michael R. Chernick
la source
3
Je ne faisais pas partie des downvoters, mais les réponses sur les sites SE devraient être plus qu'un lien vers du contenu. Il serait préférable de résumer le contenu ou de fournir une réponse résumée, puis de créer un lien vers le contenu pour plus de détails.
Reinstate Monica - G. Simpson
2
Je vote pour celui-ci parce que (1) il présente une bonne idée; (2) il contient quelques commentaires; et (3) il est soutenu par des liens soigneusement choisis, y compris vers du matériel librement disponible. Oui, cela semble typographiquement mauvais, car les liens pourraient être plus bien formatés: mais j'espère que les gens ne pèsent pas lourdement cet aspect des réponses dans leurs décisions de vote!
whuber
1
@whuber Je suis d'accord après avoir pu le lire clairement en raison du formatage agréable de Procastinator. +1 également. Je pense qu'il y a suffisamment de résumé ici et certains sujets sont presque trop complexes pour autre chose que l'idée fondamentale et une référence pour une lecture plus approfondie.
Erik
5
@MichaelChernick Notez que ce n'était pas une critique de ma part, offrant simplement une raison pour laquelle les gens auraient pu voter contre. Je ne serais pas d'accord avec eux si c'était la raison parce que je pense que votre réponse est exacte, en particulier avec PRIM; Je consultais juste mon Hastie et al (2009) sur ce qu'il disait sur PRIM. Vous voudrez peut-être ajouter ce lien à la réponse car il y a deux sections sur PRIM et le PDF est disponible gratuitement.
Reinstate Monica - G. Simpson
1
@Nikita Quelle est l'hypothèse statistique formelle que vous souhaitez tester? Vous devez d'abord trouver les sommets, ce qui est une grande partie de cela. Testez-vous que le pic n'est pas uniquement le résultat du bruit? Je ne sais pas quelle littérature il y a pour résoudre ce problème, mais je pense que vous pourriez adapter une régression polynomiale aux données (peut-être un quadratique localement). À partir de cela, vous auriez une estimation de la variance résiduelle. La signification statistique du terme quadratique serait un test pour la signification du pic.
Michael R. Chernick
1

Même si vous n'avez pas répondu à ma question, si ma supposition est juste, vous recherchez un test de bruit blanc qui s'élève dans le domaine fréquentiel pour montrer que le spectre est plat. Ainsi, le test du périodogramme de Fisher qui dans cette référence est appelé kappa de Fisher pourrait être utilisé. Voir le lien.

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

Le test de Bartlett est également mentionné dans la référence. Rejeter maintenant l'hypothèse nulle revient à trouver un pic significatif dans le périodogramme. Cela signifierait qu'une composante périodique existe dans la série chronologique.

Parce que le test est dans le domaine fréquentiel et implique des ordonnées de périodogramme, les ordonnées ont une distribution chi carré 2 sous l'hypothèse nulle et sont indépendantes. Cette distribution spéciale se produit uniquement en raison de la transformation dans le domaine fréquentiel. Si x était temps, cela ne fonctionnerait pas dans le domaine temporel ou, en général, la distribution des ys ne serait pas un chi carré indépendant.

m

Michael R. Chernick
la source
y
Donc, y est des données de comptage et qu'est-ce que xa variable explicative continue? Mes suggestions précédentes ne le sont probablement pas dans ce cas, mais il existe de nombreuses publications récentes sur les modèles de comptage. Donc, si vous pouvez être un peu plus précis sur les données et le problème, je peux peut-être indiquer une solution.
Michael R. Chernick
yx
Je ne sais pas si cela aidera ou non, mais Cameron et Trivedi ont publié un livre sur les modèles de régression de comptage et ont une deuxième édition à paraître en 2013. Voici un lien avec des informations: cameron.econ.ucdavis.edu/racd/count .html
Michael R. Chernick