Issu du domaine de la vision par ordinateur, j'ai souvent utilisé la méthode RANSAC (Random Sample Consensus) pour ajuster les modèles aux données avec beaucoup de valeurs aberrantes.
Cependant, je ne l'ai jamais vu utilisé par les statisticiens, et j'ai toujours eu l'impression qu'il n'était pas considéré comme une méthode "statistiquement valable". Pourquoi est-ce si? Il est de nature aléatoire, ce qui le rend plus difficile à analyser, tout comme les méthodes d'amorçage.
Ou est-ce simplement un cas de silos académiques qui ne se parlent pas?
Réponses:
Je pense que la clé ici est le rejet d'une grande partie des données dans RANSAC.
Dans la plupart des applications statistiques, certaines distributions peuvent avoir des queues lourdes et, par conséquent, de petits nombres d'échantillons peuvent fausser l'estimation statistique. Des estimateurs robustes résolvent ce problème en pondérant les données différemment. RANSAC, d'autre part, ne tente pas de prendre en compte les valeurs aberrantes, il est conçu pour les cas où les points de données n'appartiennent pas vraiment, pas seulement distribués de manière non normale.
la source
Pour nous, ce n'est qu'un exemple d'une régression robuste - je pense qu'elle est également utilisée par les statisticiens, mais peut-être pas si large car elle a des alternatives mieux connues.
la source
Cela ressemble beaucoup à l' ensachage qui est une technique fréquemment utilisée.
la source
Vous jetez des données avec RANSAC, potentiellement sans le justifier, mais en fonction de l'augmentation de l'ajustement du modèle. Jeter les données pour un meilleur ajustement est généralement évité car vous risquez de perdre des données importantes. L'élimination des valeurs aberrantes sans justification est toujours problématique.
Il est bien sûr possible de le justifier. Par exemple, si vous saviez que les données devraient suivre un modèle donné, mais qu'il y a également un écart dans les données du modèle en raison d'une erreur dans les mesures.
la source