Que veut dire "Laissez les données parler d'elles-mêmes"?

10

En lisant l' article suivant , je suis tombé sur l'énoncé suivant:

Comme mentionné, il est souvent présenté sans référence aux modèles probabilistes, conformément à l'idée de Benzecri [1973] de «laisser les données parler d'elles-mêmes».

(la citation est tirée de JP Benzécri. L'analyse des données. Tome II: L'analyse des correspondances. Dunod, 1973.)

D'après la façon dont je lis ce document, il semble que «laisser les données parler d'elles-mêmes» signifie quelque chose dans le sens de l'examen de diverses mesures dans les données sans égard à une fonction de vraisemblance ou à un processus de génération de données .

Bien que j'aie déjà entendu la citation «laisser les données parler d'elle-même» auparavant, je n'ai pas longuement réfléchi à ce qui est impliqué. Est-ce que mon interprétation ci-dessus est canoniquement impliquée par cette citation?

Cliff AB
la source
9
Laissez la citation parler d'elle-même.
Mark L. Stone
@ MarkL.Stone: Tout comme les données, les citations sont mieux comprises avec le contexte
Cliff AB

Réponses:

8

L'interprétation dépend du contexte, mais il existe certains contextes courants dans lesquels cela se produit. L'énoncé est souvent utilisé dans l'analyse bayésienne pour souligner le fait que nous aimerions idéalement que la distribution postérieure dans l'analyse soit robuste aux hypothèses antérieures, de sorte que l'effet des données «domine» le postérieur. Plus généralement, la citation signifie généralement que nous voulons que notre modèle statistique soit conforme à la structure des données, plutôt que de forcer les données à une interprétation qui est une hypothèse structurelle non vérifiable du modèle.

La citation particulière à laquelle vous faites référence est complétée par la citation supplémentaire: "Le modèle doit suivre les données, pas l'inverse" (traduit de Benzécri J (1973) L'Analyse des Données. Tome II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri a soutenu que les modèles statistiques devraient extraire la structure des données, plutôt que d'imposer une structure. Il considérait l'utilisation de méthodes graphiques exploratoires comme très importante pour permettre à l'analyste de "laisser parler les données".

Ben - Réintègre Monica
la source
(+1) Dans cet esprit, je suppose que la citation du premier article lié implique que ces méthodes examinent la structure de covariance empirique, plutôt qu'une structure de dépendance basée sur un modèle.
Cliff AB
1
Ouais, je pense que c'est vrai. Il convient de noter que Benzécri a affirmé que l'analyse des données était essentiellement équivalente à la décomposition propre dans l'ACP. Il est cité comme disant: "dans l'ensemble, faire une analyse de données, en bonnes mathématiques, c'est simplement rechercher des vecteurs propres; toute la science (ou l'art) consiste à trouver la bonne matrice à diagonaliser." (voir Husson et al 2016 , p. 2)
Ben - Reinstate Monica
2
Ha, c'est une affirmation très intéressante pour lui. Ce contexte rend la citation dans le document beaucoup plus logique.
Cliff AB
Ouais, c'est assez extrême!
Ben - Réintègre Monica le
(+1). Si, à première vue, la citation semble difficile à contredire (pourquoi «imposer» quelque chose serait-elle une bonne chose, après tout?), La malédiction de la dimensionnalité dans les statistiques non paramétriques, par exemple, montre qu'elle est, pour ainsi dire, plus facile d'écouter les données qui parlent d'elles-mêmes lorsque nous les écoutons via un modèle paramétrique.
Christoph Hanck
1

Vers 2005, lorsque le "Data Mining" était la dernière menace pour la profession statistique, je me souviens avoir vu une affiche avec les "Data Mining Principles", dont l'un était "laisser les données parler" (je ne me souviens pas si "pour lui-même" etait inclut). Si vous pensez aux algorithmes qui pourraient être considérés comme du «Data Mining», le partitionnement a priori et récursif vient à l'esprit, deux algorithmes qui peuvent être motivés sans hypothèses statistiques et aboutir à des résumés assez basiques de l'ensemble de données sous-jacent.

@Ben comprend mieux l'histoire de la phrase que moi, mais en pensant à la citation citée dans l'article:

La MCA peut être considérée comme la contrepartie de la PCA pour les données catégorielles et implique de réduire la dimensionnalité des données pour fournir un sous-espace qui représente le mieux les données dans le sens de maximiser la variabilité des points projetés. Comme mentionné, il est souvent présenté sans référence aux modèles probabilistes, conformément à l'idée de Benz´ecri [1973] de «laisser les données parler d'elles-mêmes».

il me semble que la procédure de MCA ressemble à un partitionnement a priori ou récursif (ou l'enfer, la moyenne arithmétique d'ailleurs) en ce sens qu'elle peut être motivée sans aucune modélisation du tout et est une opération mécanique sur un ensemble de données logique sur quelques premiers principes.

Il y a un éventail de laisser parler les données. Les modèles entièrement bayésiens avec de forts antérieurs seraient à une extrémité. Les modèles non paramétriques fréquentistes seraient plus proches de l'autre extrémité.

Ben Ogorek
la source