En lisant l' article suivant , je suis tombé sur l'énoncé suivant:
Comme mentionné, il est souvent présenté sans référence aux modèles probabilistes, conformément à l'idée de Benzecri [1973] de «laisser les données parler d'elles-mêmes».
(la citation est tirée de JP Benzécri. L'analyse des données. Tome II: L'analyse des correspondances. Dunod, 1973.)
D'après la façon dont je lis ce document, il semble que «laisser les données parler d'elles-mêmes» signifie quelque chose dans le sens de l'examen de diverses mesures dans les données sans égard à une fonction de vraisemblance ou à un processus de génération de données .
Bien que j'aie déjà entendu la citation «laisser les données parler d'elle-même» auparavant, je n'ai pas longuement réfléchi à ce qui est impliqué. Est-ce que mon interprétation ci-dessus est canoniquement impliquée par cette citation?
Réponses:
L'interprétation dépend du contexte, mais il existe certains contextes courants dans lesquels cela se produit. L'énoncé est souvent utilisé dans l'analyse bayésienne pour souligner le fait que nous aimerions idéalement que la distribution postérieure dans l'analyse soit robuste aux hypothèses antérieures, de sorte que l'effet des données «domine» le postérieur. Plus généralement, la citation signifie généralement que nous voulons que notre modèle statistique soit conforme à la structure des données, plutôt que de forcer les données à une interprétation qui est une hypothèse structurelle non vérifiable du modèle.
La citation particulière à laquelle vous faites référence est complétée par la citation supplémentaire: "Le modèle doit suivre les données, pas l'inverse" (traduit de Benzécri J (1973) L'Analyse des Données. Tome II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri a soutenu que les modèles statistiques devraient extraire la structure des données, plutôt que d'imposer une structure. Il considérait l'utilisation de méthodes graphiques exploratoires comme très importante pour permettre à l'analyste de "laisser parler les données".
la source
Vers 2005, lorsque le "Data Mining" était la dernière menace pour la profession statistique, je me souviens avoir vu une affiche avec les "Data Mining Principles", dont l'un était "laisser les données parler" (je ne me souviens pas si "pour lui-même" etait inclut). Si vous pensez aux algorithmes qui pourraient être considérés comme du «Data Mining», le partitionnement a priori et récursif vient à l'esprit, deux algorithmes qui peuvent être motivés sans hypothèses statistiques et aboutir à des résumés assez basiques de l'ensemble de données sous-jacent.
@Ben comprend mieux l'histoire de la phrase que moi, mais en pensant à la citation citée dans l'article:
il me semble que la procédure de MCA ressemble à un partitionnement a priori ou récursif (ou l'enfer, la moyenne arithmétique d'ailleurs) en ce sens qu'elle peut être motivée sans aucune modélisation du tout et est une opération mécanique sur un ensemble de données logique sur quelques premiers principes.
Il y a un éventail de laisser parler les données. Les modèles entièrement bayésiens avec de forts antérieurs seraient à une extrémité. Les modèles non paramétriques fréquentistes seraient plus proches de l'autre extrémité.
la source