Procédure automatisée de sélection d'un sous-ensemble de points de données avec la corrélation la plus forte?

15

Existe-t-il une procédure standard (telle que l'on pourrait la citer comme référence) pour sélectionner le sous-ensemble de points de données dans un pool plus large avec la corrélation la plus forte (le long de deux dimensions seulement)?

Par exemple, supposons que vous ayez 100 points de données. Vous voulez un sous-ensemble de 40 points avec la plus forte corrélation possible le long des dimensions X et Y.

Je me rends compte que l'écriture de code pour ce faire serait relativement simple, mais je me demande s'il y a une source à citer pour cela?

Julie
la source
3
"Je me rends compte que l'écriture de code pour ce faire serait relativement simple". Ah? Et comment feriez-vous cela?
user603
3
Je suppose qu'elle voulait dire quelque chose comme «la meilleure corrélation de sous-ensemble»; sélectionner des sous-ensembles de ( k = 40 dans son exemple) points de données sur votre N ( N = 100 dans son exemple) et calculer l'estimation de la corrélation ρ ( X , Y ) (en supposant qu'elle voulait connaître un sous-ensemble de points avec la meilleure corrélation linéaire ). Cependant, ce processus semble coûteux en calcul pour les grands N , car vous devez calculer fois le coefficient. kk=40NN=100ρ(X,Y)N(Nk)
Néstor
1
Si vous êtes prêt à regarder des combinaisons linéaires des variables , les corrélations canoniques sont ce que vous recherchez. Sinon, la sélection des caractéristiques de corrélation pourrait être intéressante. X
MånsT
Je pense que certains me comprennent peut-être mal. @ Néstor semble avoir raison. Il y a 100 éléments, chacun avec une valeur X et une valeur Y. Je veux trouver le sous-ensemble de 40 qui a la plus forte corrélation possible (avec régression linéaire) entre les valeurs X et Y. Je peux écrire du code pour explorer tout l'espace de recherche, mais que citerais-je pour prendre en charge une telle méthode? Comment appelle-t-on la corrélation optimale entre tous les sous-ensembles possibles?
Julie
1
Êtes-vous intéressé à maximiser la corrélation ou à obtenir la droite de régression la mieux ajustée, telle que, par exemple, mesurée par la variance résiduelle minimale? Les deux ne sont pas les mêmes lorsque vous choisissez vos points de données.
jbowman

Réponses:

17

Je dirais que votre méthode s'inscrit dans la catégorie générale décrite dans cet article wikipedia qui a également d'autres références si vous avez besoin de quelque chose de plus que simplement wikipedia. Certains des liens contenus dans cet article s'appliqueraient également.

D'autres termes qui pourraient s'appliquer (si vous voulez faire plus de recherche) incluent "Dragage de données" et "Torturer les données jusqu'à ce qu'elles confessent".

Notez que vous pouvez toujours obtenir une corrélation de 1 si vous choisissez seulement 2 points qui n'ont pas de valeurs x ou y identiques. Il y a quelques années, un article du magazine Chance montrait que lorsque vous avez une variable x et y sans aucune corrélation, vous pouvez trouver un moyen de regrouper les x et de faire la moyenne des y dans les bacs pour montrer une tendance à la hausse ou à la baisse ( Chance 2006, Visual Revelations: Finding What Is Not There Through the Malfortable binning of Results: The Mendel Effect, pp. 49-52). De plus, avec un ensemble de données complet montrant une corrélation positive modérée, il est possible de choisir un sous-ensemble qui présente une corrélation négative. Compte tenu de ces éléments, même si vous avez une raison légitime de faire ce que vous proposez, vous donnez à tous les sceptiques de nombreux arguments à utiliser contre les conclusions que vous tirez.

Greg Snow
la source
Quel est le nom de l'article de The American Statistician?
supposé normal
1
Je me souviens mal où j'ai vu l'article, c'était en fait dans Chance Magazine plutôt que dans The American Statistician. J'ai corrigé cela ci-dessus et inclus l'année, le titre et les numéros de page afin que les parties intéressées puissent en trouver facilement des copies.
Greg Snow
4

L'algorithme RANSAC ressemble à ce que vous voulez. Fondamentalement, il suppose que vos données sont constituées d'un mélange de valeurs aberrantes et aberrantes, et essaie d'identifier les valeurs aberrantes en échantillonnant à plusieurs reprises des sous-ensembles de données, en y ajustant un modèle, puis en essayant d'adapter tous les autres points de données au modèle. Voici l'article wikipedia à ce sujet .

Dans votre cas, vous pouvez simplement répéter l'algorithme tout en enregistrant le meilleur modèle actuel qui correspond à au moins 40 points, de sorte qu'il ne vous garantira pas la meilleure corrélation absolue, mais il devrait se rapprocher.

Joseph
la source
1

J'ai du mal à imaginer un contexte dans lequel ce serait une bonne pratique, mais supposons un instant que vous avez effectivement une bonne raison de le faire.

Un algorithme de force brute pourrait ressembler à ceci:

  1. Vous calculez tous les sous-échantillons possibles de n sur votre échantillon global de N. La plupart des progiciels statistiques ont des fonctions de calcul des combinaisons sans remplacements qui le feront pour vous.

  2. Vous estimez la corrélation entre x et y pour chacun des sous-échantillons et sélectionnez le maximum dans cet ensemble.

Je viens de voir le commentaire de l'affiche originale concernant une référence pour cette procédure. Je ne suis pas sûr que quelqu'un ait un nom spécifique pour cette procédure après tout, vous générez simplement une distribution empirique de toutes les corrélations possibles dans votre ensemble de données et sélectionnez le maximum. Des approches similaires sont utilisées lors du bootstraping, mais dans ce cas, vous êtes intéressé par la variabilité empirique, vous ne les utilisez PAS pour choisir un sous-échantillon spécifique associé au max.

David
la source
2
1032N=100n=40
Pas besoin d'être sarcastique à ce sujet :-p. Bon point.
David
Désolé ... J'aime bien ces chiffres, car ils nous donnent beaucoup de place pour un algorithme amélioré :-).
whuber