Je me demande pourquoi utilisons-nous l'hypothèse gaussienne lors de la modélisation de l'erreur. Dans le cours de ML de Stanford , le professeur Ng le décrit essentiellement de deux manières:
- C'est mathématiquement pratique. (Il est lié à l'ajustement des moindres carrés et facile à résoudre avec pseudoinverse)
- En raison du théorème de la limite centrale, nous pouvons supposer qu'il y a beaucoup de faits sous-jacents affectant le processus et la somme de ces erreurs individuelles aura tendance à se comporter comme dans une distribution normale moyenne nulle. En pratique, il semble qu'il en soit ainsi.
Je m'intéresse en fait à la deuxième partie. Le théorème de la limite centrale fonctionne pour les échantillons iid pour autant que je sache, mais nous ne pouvons pas garantir que les échantillons sous-jacents soient iid.
Avez-vous des idées sur l'hypothèse gaussienne de l'erreur?
regression
normality-assumption
pac-learning
Petrichor
la source
la source
Réponses:
Je pense que vous avez essentiellement mis le doigt sur la tête dans la question, mais je vais voir si je peux ajouter quelque chose de toute façon. Je vais répondre à cela de façon un peu détournée ...
Le domaine des statistiques robustes examine la question de savoir quoi faire lorsque l'hypothèse gaussienne échoue (dans le sens où il y a des valeurs aberrantes):
Celles-ci ont également été appliquées en ML, par exemple dans Mika el al. (2001) A Mathematical Programming Approach to the Kernel Fisher Algorithm , ils décrivent comment la perte robuste de Huber peut être utilisée avec KDFA (avec d'autres fonctions de perte). Bien sûr, il s'agit d'une perte de classification, mais la KFDA est étroitement liée à la machine à vecteur de pertinence (voir la section 4 du document Mika).
Comme l'indique la question, il existe un lien étroit entre les fonctions de perte et les modèles d'erreur bayésiens (voir ici pour une discussion).
Cependant, il est vrai que dès que vous commencez à incorporer des fonctions de perte "funky", l'optimisation devient difficile (notez que cela se produit également dans le monde bayésien). Ainsi, dans de nombreux cas, les gens recourent à des fonctions de perte standard faciles à optimiser et effectuent plutôt un prétraitement supplémentaire pour s'assurer que les données sont conformes au modèle.
L'autre point que vous mentionnez est que le CLT ne s'applique qu'aux échantillons qui sont IID. C'est vrai, mais les hypothèses (et l'analyse qui l'accompagne) de la plupart des algorithmes sont les mêmes. Lorsque vous commencez à regarder des données non-IID, les choses deviennent beaucoup plus délicates. Un exemple est s'il y a une dépendance temporelle, auquel cas l'approche est généralement de supposer que la dépendance ne couvre qu'une certaine fenêtre, et les échantillons peuvent donc être considérés approximativement comme des IDI en dehors de cette fenêtre (voir par exemple ce papier brillant mais résistant Chromatic PAC -Bayes Bounds for Non-IID Data: Applications to Ranking and Stationary β-Mixing Process ), après quoi l'analyse normale peut être appliquée.
Donc, oui, cela se résume en partie à la commodité, et en partie parce que dans le monde réel, la plupart des erreurs semblent (grossièrement) gaussiennes. Il faut bien sûr toujours être prudent lorsque l'on regarde un nouveau problème pour s'assurer que les hypothèses ne sont pas violées.
la source