Définition de la régression

8

De Wikipédia:

En modélisation statistique, l' analyse de régression est un processus statistique permettant d'estimer les relations entre les variables. Il comprend de nombreuses techniques de modélisation et d'analyse de plusieurs variables, lorsque l'accent est mis sur la relation entre une variable dépendante et une ou plusieurs variables indépendantes (ou «prédicteurs»).

N'est-ce pas la même chose pour la classification ? Au final, n'est-ce pas le but de l'apprentissage automatique ?

user_anon
la source

Réponses:

14

Le but et la portée de la régression sont bien plus larges que la classification ou l'apprentissage automatique (toutefois, ces derniers peuvent être compris). Il y a cependant beaucoup de chevauchements.

Des relations

Les relations analysées par régression peuvent consister en

  • Association

  • Dépendance

  • Causalité

La classification fournit des informations sur les deux premiers, mais ne dit rien sur la causalité. La régression et l'apprentissage automatique ont été utilisés - parfois avec succès, souvent de manière problématique - pour tirer des conclusions sur la causalité.

Objectifs de la régression

  1. Pour obtenir un résumé des données multivariées.

  2. Pour mettre de côté l'effet d'une variable qui pourrait embrouiller le problème.

  3. Contribuer aux tentatives d'analyse causale.

  4. Mesurez la taille d'un effet.

  5. Essayez de découvrir une loi mathématique ou empirique.

  6. Prédiction.

  7. Exclusion: obtenir X "à l'écart" lorsque nous voulons étudier la relation entre deux autres variables qui pourraient être affectées par X.

(Après Mosteller et Tukey, Analyse et régression des données, chapitre 12B.)

La classification n'atteint presque aucun de ces objectifs. De manière limitée, il pourrait fournir une sorte de résumé (1) et aider à la découverte (5).

L'apprentissage automatique vise la prédiction (6) presque exclusivement. La plupart des techniques d'apprentissage automatique, allant des forêts aléatoires aux réseaux de neurones pour prendre en charge les modèles vectoriels, sont opaques à la compréhension: elles ne visent pas spécifiquement à résumer les données (1), à supprimer les effets des variables de confusion (2 et 7), ni à aider nous découvrons des régularités qui peuvent s'incarner dans une loi empirique (5).


Ce message est une légère extension d'une présentation introductive que j'ai faite récemment pour un cours de semestre en régression. De nombreux autres documents sur les objectifs et la pratique de la régression y sont disponibles.

whuber
la source