Supposons que nous ayons un ensemble de données avec points. Nous voulons effectuer une régression linéaire, mais nous trions d’abord les valeurs et indépendamment les unes des autres, en formant un ensemble de données . Existe-t-il une interprétation significative de la régression sur le nouvel ensemble de données? Est-ce que ça a un nom?n X i Y i ( X i , Y j )
J'imagine que c'est une question idiote, donc je m'excuse, je ne suis pas formellement formé aux statistiques. Dans mon esprit, cela détruit complètement nos données et la régression n'a pas de sens. Mais mon manager dit qu'il obtient "de meilleures régressions la plupart du temps" (dans ce cas, "mieux" signifie plus prédictif). J'ai l'impression qu'il se trompe lui-même.
EDIT: Merci pour tous vos bons et patients exemples. Je lui ai montré les exemples de @ RUser4512 et @gung et il reste fidèle. Il s'irrite et je m'épuise. Je me sens découragé. Je vais probablement commencer à chercher d'autres emplois bientôt.
la source
Réponses:
Je ne suis pas sûr de ce que votre patron pense par "plus prédictif". Beaucoup de gens croient à tort que des valeurs plus basses signifient un modèle mieux / plus prédictif. Ce n'est pas nécessairement vrai (ceci étant un exemple). Cependant, un tri indépendant préalable des deux variables garantira une valeur inférieure . D'autre part, nous pouvons évaluer la précision prédictive d'un modèle en comparant ses prévisions aux nouvelles données générées par le même processus. Je fais cela ci-dessous dans un exemple simple (codé avec ). pp p
R
Le graphique en haut à gauche montre les données d'origine. Il existe une relation entre et (à savoir, la corrélation est d'environ ). Le graphique en haut à droite montre à quoi ressemblent les données après avoir trié indépendamment les deux variables. Vous pouvez facilement voir que la force de la corrélation a considérablement augmenté (elle est maintenant d'environ ). Cependant, dans les graphiques inférieurs, nous voyons que la distribution des erreurs prédictives est beaucoup plus proche de pour le modèle formé sur les données d'origine (non triées). L'erreur prédictive absolue moyenne pour le modèle qui a utilisé les données d'origine est de , tandis que l'erreur prédictive absolue moyenne pour le modèle formé sur les données triées est dey .31 .99 0 1.1 1.98 y 68 %X y .31 99 0 1.1 1,98 ... presque deux fois plus gros. Cela signifie que les prédictions du modèle de données triées sont beaucoup plus éloignées des valeurs correctes. Le graphique du quadrant inférieur droit est un graphique en points. Il affiche les différences entre l'erreur prédictive avec les données d'origine et avec les données triées. Cela vous permet de comparer les deux prédictions correspondantes pour chaque nouvelle observation simulée. Les points bleus à gauche sont les moments où les données d'origine étaient plus proches de la nouvelle valeur , et les points rouges à droite, les moments où les données triées ont produit de meilleures prévisions. Il y avait des prévisions plus précises à partir du modèle formé sur les données d'origine du temps. y 68%
Le degré auquel le tri causera ces problèmes dépend de la relation linéaire qui existe dans vos données. Si la corrélation entre et était déjà , le tri n'aurait aucun effet et ne serait donc pas préjudiciable. Par contre, si la corrélation étaity 1,0 - 1,0x y 1,0 - 1,0 , le tri renverserait complètement la relation, rendant le modèle aussi inexact que possible. Si les données étaient complètement non corrélées à l'origine, le tri aurait un effet néfaste intermédiaire, mais néanmoins assez important, sur la précision prédictive du modèle obtenu. Étant donné que vous indiquez que vos données sont généralement corrélées, je suppose que cela a fourni une certaine protection contre les inconvénients inhérents à cette procédure. Néanmoins, le tri en premier lieu est définitivement dangereux. Pour explorer ces possibilités, nous pouvons simplement réexécuter le code ci-dessus avec différentes valeurs pour
B1
(en utilisant la même graine pour la reproductibilité) et examiner le résultat:B1 = -5
:B1 = 0
:B1 = 5
:la source
<-
parfois, mais mon objectif sur CV est d’écrire le code R le plus près possible du pseudocode afin qu’il soit plus lisible par des personnes qui ne sont pas familières. R.=
est assez universel parmi les langages de programmation en tant qu’opérateur. .Si vous voulez convaincre votre patron, vous pouvez montrer ce qui se passe avec des données simulées, aléatoires et indépendantes . Avec R:x,y
De toute évidence, les résultats triés offrent une régression beaucoup plus agréable. Cependant, étant donné le processus utilisé pour générer les données (deux échantillons indépendants), il n’ya absolument aucune chance qu’un puisse être utilisé pour prédire l’autre.
la source
Votre intuition est correcte: les données triées indépendamment n'ont pas de signification fiable car les entrées et les sorties sont mappées de manière aléatoire les unes aux autres plutôt que la relation observée.
Il y a une (bonne) chance que la régression sur les données triées paraisse bien, mais cela n'a pas de sens en contexte.
Exemple intuitif: supposons un ensemble de données pour une population donnée . Le graphique des données non falsifiées ressemblerait probablement à une fonction logarithmique ou de pouvoir: des taux de croissance plus rapides pour les enfants qui ralentissent pour les adolescents ultérieurs et approchent "asymptotiquement" de la taille maximale pour les adultes jeunes et plus âgés.(X=age,Y=height)
Si nous trions en ordre croissant, le graphique sera probablement presque linéaire. Ainsi, la fonction de prédiction est que les personnes grandissent toute leur vie. Je ne parierais pas d'argent sur cet algorithme de prédiction.x,y
la source
la source
C’est un art et une compréhension réelle de la psychologie est nécessaire pour convaincre certaines personnes de l’erreur de leur part. Outre tous les excellents exemples ci-dessus, une stratégie utile consiste parfois à montrer que la conviction d'une personne conduit à une incohérence avec elle-même. Ou essayez cette approche. Trouvez quelque chose que votre patron croit fermement, par exemple la manière dont les personnes s’acquittent de la tâche. Y n’a aucune relation avec la quantité d’un attribut X qu’elles possèdent. Montrez comment la propre approche de votre patron pourrait mener à la conclusion d'une association forte entre X et Y. Capitaliser sur les convictions politiques / raciales / religieuses.
L'invalidité de la face aurait dû suffire. Quel patron têtu. Être à la recherche d'un meilleur travail dans l'intervalle. Bonne chance.
la source
Un autre exemple. Imaginez que vous avez deux variables, l'une liée à la consommation de chocolat et l'autre liée au bien-être général. Vous avez un échantillon de deux et vos données sont comme ci-dessous:
Quelle est la relation entre le chocolat et le bonheur en fonction de votre échantillon? Et maintenant, changez l'ordre d'une des colonnes - quelle est la relation après cette opération?
Notez que nous sommes parfois intéressés à changer l'ordre des cas, nous le faisons également dans les méthodes de rééchantillonnage . Par exemple, nous pouvons délibérément mélanger les observations plusieurs fois pour en apprendre davantage sur la distribution nulle de nos données (à quoi ressembleraient nos données s'il n'y avait pas de relations par paires), puis nous pourrons comparer si nos données réelles sont de toute façon meilleures que les données aléatoires. mélangé. Ce que fait votre responsable, c'est exactement le contraire: il force intentionnellement les observations à avoir une structure artificielle là où il n'y en a pas, ce qui conduit à des corrélations factices.
la source
Un exemple simple que votre responsable pourrait peut-être comprendre:
Supposons que vous avez Coin Y et Coin X, et que vous les retournez 100 fois. Ensuite, vous voulez prédire si une tête avec Pièce X (IV) peut augmenter les chances d’obtenir une tête avec Pièce Y (DV).
Sans tri, la relation sera nulle, car le résultat de Coin X ne devrait pas affecter le résultat de Coin Y. Avec le tri, la relation sera presque parfaite.
En quoi est-il logique de conclure que vous avez de bonnes chances d'obtenir un coup de tête si vous venez de retourner une tête avec une pièce de monnaie différente?
la source
Cette technique est réellement incroyable. Je trouve toutes sortes de relations que je n'avais jamais soupçonnées. Par exemple, je n'aurais pas soupçonné que les numéros figurant dans la loterie Powerball, dont il est RÉCLAMÉ qu'ils soient aléatoires, sont en réalité fortement corrélés au cours d'ouverture des actions Apple le même jour! Les gens, je pense que nous sommes sur le point de gagner beaucoup d'argent. :)
Hmm, ne semble pas avoir une relation significative. MAIS en utilisant la nouvelle technique améliorée:
NOTE: Ceci n'est pas censé être une analyse sérieuse. Il suffit de montrer à votre responsable qu’il peut associer TOUTE deux variables de manière significative si vous les triez toutes les deux.
la source
Beaucoup de bons exemples de compteur ici. Permettez-moi d'ajouter un paragraphe sur le cœur du problème.
En fait, permettez-moi d'ajouter un paragraphe expliquant pourquoi cela "fonctionne" également.
la source
En fait, le test décrit (c.-à-d. Trie les valeurs X et Y indépendamment et régresse l'une contre l'autre) teste quelque chose, en supposant que les (X, Y) sont échantillonnés sous forme de paires indépendantes à partir d'une distribution à deux variables. Ce n'est tout simplement pas un test de ce que votre manager veut tester. Il s'agit essentiellement de vérifier la linéarité d'un graphique QQ, en comparant la distribution marginale des X à la distribution marginale des Y. En particulier, les «données» tomberont près d'une droite si la densité des Xs (f (x)) est liée à la densité des Ys (g (y)) de la manière suivante:
la source
Étrange que le contre-exemple le plus évident ne soit toujours pas présent parmi les réponses dans sa forme la plus simple.
C’est un genre d’inverse direct du modèle que vous voudrez peut-être trouver ici.
la source
Tu as raison. Votre responsable trouverait de "bons" résultats! Mais ils ne veulent rien dire. Ce que vous obtenez lorsque vous les triez indépendamment est que les deux augmentent ou diminuent de la même façon, ce qui donne un semblant de bon modèle. Mais les deux variables ont été dépouillées de leur relation réelle et le modèle est incorrect.
la source
La régression linéaire est généralement moins raisonnable (des exceptions existent, voir autres réponses); mais la géométrie des queues et de la distribution des erreurs vous indique à quel point les distributions sont similaires.
la source
J'ai une simple intuition pour laquelle c'est en fait une bonne idée si la fonction est monotone :
PS: Je trouve incroyable de voir comment une question apparemment simple peut conduire à de nouvelles façons intéressantes de repenser le modèle de normes. S'il vous plaît merci patron!
la source
Disons que vous avez ces points sur un cercle de rayon 5. Vous calculez la corrélation:
Ensuite, vous triez vos valeurs x et y et effectuez à nouveau la corrélation:
Par cette manipulation, vous modifiez un jeu de données avec une corrélation 0.0 à un avec une corrélation 1.0. C'est un problème.
la source
Permettez-moi de jouer à l'avocat du diable ici. Je pense que de nombreuses réponses ont démontré de manière convaincante que la procédure du chef est fondamentalement erronée. En même temps, je propose un contre-exemple qui montre que le patron a peut-être vu les résultats s'améliorer avec cette transformation erronée.
Je pense que le fait de reconnaître que cette procédure aurait pu "fonctionner" pour le patron pourrait engager un argument plus convaincant: bien sûr, cela a fonctionné, mais uniquement dans ces circonstances chanceuses qui ne tiennent généralement pas. Ensuite, nous pouvons montrer - comme dans l’excellente réponse acceptée - à quel point il peut être désagréable de ne pas être chanceux. Ce qui est la plupart du temps. Dans l' isolement, montrant le patron à quel point il peut être peut - être pas le persuader parce qu'il aurait pu voir un cas où il fait améliorer les choses, et la figure que notre argumentation de fantaisie doit avoir une faille quelque part.
J’ai trouvé ces données en ligne et, bien sûr, il semble que la régression soit améliorée par le tri indépendant de X et Y, car: a) les données sont très corrélées positivement, et b) les MCO ne fonctionnent vraiment pas bien avec les valeurs extrêmes. hors boissons). La taille et le poids ont une corrélation de 0,19 avec la valeur aberrante incluse, de 0,77 avec la valeur aberrante exclue et de 0,78 avec X et Y triés indépendamment.
Il me semble donc que le modèle de régression sur cet ensemble de données est amélioré par le tri indépendant (ligne noire par opposition à ligne rouge dans le premier graphique) et qu'il existe une relation visible (noir par rapport à rouge dans le second graphique), en raison de la fortement corrélé (positivement) et ayant le bon type de valeurs aberrantes qui nuit davantage à la régression qu'au brassage qui se produit lorsque vous triez indépendamment x et y.
Encore une fois, ne pas dire que le tri indépendant fait quelque chose de sensé en général, ni que c'est la bonne réponse ici. Juste que le patron ait peut-être vu quelque chose comme ça qui s'est avéré fonctionner dans les bonnes circonstances.
la source
S'il a présélectionné les variables comme étant monotones, c'est en fait assez robuste. Google "modèles linéaires impropres" et "Robin Dawes" ou "Howard Wainer." Dawes et Wainer parlent d’autres moyens de choisir des coefficients. John Cook a publié une courte rubrique ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ).
la source
J'y ai pensé et j'ai pensé qu'il existe une structure basée sur les statistiques des commandes. J'ai vérifié, et il semble que le directeur ne soit pas aussi fou que ça en a l'air
Coefficient De Corrélation Statistiques Ordres Comme Une Nouvelle Association Mesure Avec Des Applications à L'analyse Du Biosignal
http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f50a6c6.66)
la source