Existe-t-il une procédure standard (telle que l'on pourrait la citer comme référence) pour sélectionner le sous-ensemble de points de données dans un pool plus large avec la corrélation la plus forte (le long de deux dimensions seulement)?
Par exemple, supposons que vous ayez 100 points de données. Vous voulez un sous-ensemble de 40 points avec la plus forte corrélation possible le long des dimensions X et Y.
Je me rends compte que l'écriture de code pour ce faire serait relativement simple, mais je me demande s'il y a une source à citer pour cela?
Réponses:
Je dirais que votre méthode s'inscrit dans la catégorie générale décrite dans cet article wikipedia qui a également d'autres références si vous avez besoin de quelque chose de plus que simplement wikipedia. Certains des liens contenus dans cet article s'appliqueraient également.
D'autres termes qui pourraient s'appliquer (si vous voulez faire plus de recherche) incluent "Dragage de données" et "Torturer les données jusqu'à ce qu'elles confessent".
Notez que vous pouvez toujours obtenir une corrélation de 1 si vous choisissez seulement 2 points qui n'ont pas de valeurs x ou y identiques. Il y a quelques années, un article du magazine Chance montrait que lorsque vous avez une variable x et y sans aucune corrélation, vous pouvez trouver un moyen de regrouper les x et de faire la moyenne des y dans les bacs pour montrer une tendance à la hausse ou à la baisse ( Chance 2006, Visual Revelations: Finding What Is Not There Through the Malfortable binning of Results: The Mendel Effect, pp. 49-52). De plus, avec un ensemble de données complet montrant une corrélation positive modérée, il est possible de choisir un sous-ensemble qui présente une corrélation négative. Compte tenu de ces éléments, même si vous avez une raison légitime de faire ce que vous proposez, vous donnez à tous les sceptiques de nombreux arguments à utiliser contre les conclusions que vous tirez.
la source
L'algorithme RANSAC ressemble à ce que vous voulez. Fondamentalement, il suppose que vos données sont constituées d'un mélange de valeurs aberrantes et aberrantes, et essaie d'identifier les valeurs aberrantes en échantillonnant à plusieurs reprises des sous-ensembles de données, en y ajustant un modèle, puis en essayant d'adapter tous les autres points de données au modèle. Voici l'article wikipedia à ce sujet .
Dans votre cas, vous pouvez simplement répéter l'algorithme tout en enregistrant le meilleur modèle actuel qui correspond à au moins 40 points, de sorte qu'il ne vous garantira pas la meilleure corrélation absolue, mais il devrait se rapprocher.
la source
J'ai du mal à imaginer un contexte dans lequel ce serait une bonne pratique, mais supposons un instant que vous avez effectivement une bonne raison de le faire.
Un algorithme de force brute pourrait ressembler à ceci:
Vous calculez tous les sous-échantillons possibles de n sur votre échantillon global de N. La plupart des progiciels statistiques ont des fonctions de calcul des combinaisons sans remplacements qui le feront pour vous.
Vous estimez la corrélation entre x et y pour chacun des sous-échantillons et sélectionnez le maximum dans cet ensemble.
Je viens de voir le commentaire de l'affiche originale concernant une référence pour cette procédure. Je ne suis pas sûr que quelqu'un ait un nom spécifique pour cette procédure après tout, vous générez simplement une distribution empirique de toutes les corrélations possibles dans votre ensemble de données et sélectionnez le maximum. Des approches similaires sont utilisées lors du bootstraping, mais dans ce cas, vous êtes intéressé par la variabilité empirique, vous ne les utilisez PAS pour choisir un sous-échantillon spécifique associé au max.
la source