Pourquoi RANSAC n'est-il pas le plus utilisé en statistique?

26

Issu du domaine de la vision par ordinateur, j'ai souvent utilisé la méthode RANSAC (Random Sample Consensus) pour ajuster les modèles aux données avec beaucoup de valeurs aberrantes.

Cependant, je ne l'ai jamais vu utilisé par les statisticiens, et j'ai toujours eu l'impression qu'il n'était pas considéré comme une méthode "statistiquement valable". Pourquoi est-ce si? Il est de nature aléatoire, ce qui le rend plus difficile à analyser, tout comme les méthodes d'amorçage.

Ou est-ce simplement un cas de silos académiques qui ne se parlent pas?

outliers bootstrap robust Bossykena
la source

1

Je me demande une chose à propos des méthodes de vision par ordinateur par rapport aux méthodes statistiques: la performance dans le premier est un must. Peut-être y a-t-il un compromis entre performance et «exactitude», et la vision par ordinateur et les statistiques ont des poids différents pour ces variables.

Lucas Reis

10

Je pense que la clé ici est le rejet d'une grande partie des données dans RANSAC.

Dans la plupart des applications statistiques, certaines distributions peuvent avoir des queues lourdes et, par conséquent, de petits nombres d'échantillons peuvent fausser l'estimation statistique. Des estimateurs robustes résolvent ce problème en pondérant les données différemment. RANSAC, d'autre part, ne tente pas de prendre en compte les valeurs aberrantes, il est conçu pour les cas où les points de données n'appartiennent pas vraiment, pas seulement distribués de manière non normale.

nbubis
la source

1

Très bonne réponse. J'ai vu RANSAC le plus utilisé dans les CV pour estimer les homographies. Ceci est plus largement utilisé lorsque nous savons que certaines des mesures correspondantes sont extrêmement peu fiables. De plus, les performances en temps réel et d'autres considérations ont rendu cette technique très populaire car elle peut être facilement parallélisée.

Luca

7

Pour nous, ce n'est qu'un exemple d'une régression robuste - je pense qu'elle est également utilisée par les statisticiens, mais peut-être pas si large car elle a des alternatives mieux connues.

la source

1

Pouvez-vous donner des exemples d'alternatives? J'aimerais examiner cela.

Bossykena

5

La plus connue et la plus simple est la régression médiane-médiane, bien connue des calculatrices intelligentes (Soupir!). Consultez également Wikipedia en.wikipedia.org/wiki/Robust_regression et peut-être la vue de tâche robuste du CRAN cran.r-project.org/web/views/Robust.html

Existe-t-il des alternatives à RANSAC qui vous donnent non seulement la régression non biaisée mais aussi les points de données à partir desquels le modèle a été estimé? Merci

Valerio

2

Cela ressemble beaucoup à l' ensachage qui est une technique fréquemment utilisée.

Zach
la source

3

RANSAC est très différent - dans l'ensachage, tous les échantillons sont pris en compte d'une manière ou d'une autre. RANSAC est utilisé dans les cas où jusqu'à 50% des données doivent être complètement rejetées.

nbubis

1

Vous jetez des données avec RANSAC, potentiellement sans le justifier, mais en fonction de l'augmentation de l'ajustement du modèle. Jeter les données pour un meilleur ajustement est généralement évité car vous risquez de perdre des données importantes. L'élimination des valeurs aberrantes sans justification est toujours problématique.

Il est bien sûr possible de le justifier. Par exemple, si vous saviez que les données devraient suivre un modèle donné, mais qu'il y a également un écart dans les données du modèle en raison d'une erreur dans les mesures.

NegativeFeedbackLoop
la source

Pourquoi RANSAC n'est-il pas le plus utilisé en statistique?

Réponses: